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如 果 你 对 UNIX 系 统 程序 设计 感 兴趣 ， 那 一 定 要 读 这 本 书 

一 一 Ed Schaefer (Unix Review) 

对 UNIX 程 序 设计 新 手 和 那些 有 经 验 的 C 程 序 员 来 说 ， 本 书 是 一 个 极 好 的 起 点 
一 一 TechBookReport 





本 书 第 1 版 自 1985 年 出 版 以 来 ， 历 经 20 年 畅销 不 豪 , 许多 有 经 验 的 程序 员 都 求助 于 它 ， 作 
者 Marc J. Rochkind 被 誉 为 UNIX 先 行者 。 当 前 ，UNIX 规 范 中 有 1100 多 个 函数 ， 要 掌握 这 些 函 
数 确 实 是 一 件 让 人 望而却步 的 事 。 第 2 版 几乎 完全 重 写 ， 当 中 建议 了 如 何 可 靠 地 使 用 关键 函数 ， 
深入 讲解 了 UNIX 操 作 系统 家 族 最 新 的 、 必 用 的 系统 调用 函数 (多 达 307 个 ) ， 涉 及 POSIX、 
FreeBSD、Solaris、Linux 等 几 大 主流 系统 实现 


全 书包 括 : 


© 基本 概念 ， 进 程 通信 ， 网 络 (BRS), ， 伪 终端 ， MO 流 ， 高 级 信号 ， 实 时 处 理 和 线程 。 

o 数 千 行 示例 代码 ， 包 括 一 个 Web 浏 览 程序 ， 一 个 击 键 记录 程序 /播放 器 ， 用 管道 、 重 定向 写 的 shell 
程序 ， 以 及 相关 的 后 台 进 程 程序 。 

© 每 章 末 的 练习 。 一 些 是 简单 的 程序 设计 问题 还 有 一 些 则 可 以 作为 每 学 期 的 UNIX 程 序 设计 项 目 





配套 网 站 www.basepath.com/aup 提 供 了 丰富 的 学 习 资 源 ， 包 括 ， 书 中 所 有 示例 的 源 代码 、 
作者 的 博客 、 书 评 、 相 关 文 献 和 图 书 、 标 准 UNIX 函 数 概要 ， 等 等 





. UNIX 程 序 设 计 先行 者 ，20 世 纪 70 年 代 任职 于 

ff Mare J. Rochkin Bell RUS, 那 时 UNIX 正 处 于 起 步 阶段 。 他 
对 UNIX 的 首要 贡献 便 是 开发 了 源 代码 控制 系统 。 这 次 修订 主要 来 自 他 多 年 在 Bell 实 验 室 应” 及 

Ho 用 系统 开发 积累 的 经 验 。 ` y| 
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本 书 以 当前 UNIX 规 范 为 基础 ， 详 细 介绍 了 UNIX 系 统 函 数 的 用 法 ， 并 用 大 量 的 代码 
和 示例 程序 进行 演示 ， 对 实际 编程 具有 指导 意义 。 全 书 共 9 章 ， 内 容 包括 : 基本 概念 、 基 
本 文件 1O、 高 级 文件 UO、 终 端 IO、 进 程 与 线程 、 基 本 进程 间 通 信 、 高 级 进程 间 通 信 、 
网 络 技术 与 套 接 字 ， 以 及 信号 与 定时 器 等 。 涉 及 POSIX、FreeBSD 、Solaris、Linux 等 几 
大 主流 系统 实现 。 每 章 末 都 给 出 一 了 些 练习 ， 一 些 是 简单 的 程序 设计 问题 ， 还 有 一 些 可 
以 作为 学 期 的 UNIX 程 序 设计 项 目 。 

本 书 适合 广大 UNIX 和 C 程 序 员 、 研 究 人 员 、 高 校 相关 专业 师 生 学 习 和 参考 。 


Authorized translation from the English language edition entitled Advanced UNIX 
Programming, Second Edition by Marc J. Rochkind, published by Pearson Education, Inc, 
publishing as Addison-Wesley(ISBNO-13-141154-3), Copyright © 2004 Pearson Education, Inc. 

All rights reserved. No part of this book may be reproduced or transmitted in any form 
or by any means, electronic or mechanic, including photocopying, recording, or by any 
information storage retrieval system, without permission of Pearson Education, Inc. 

Chinese simplified language edition published by China Machine Press. 

Copyright © 2006 by China Machine Press. 
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出 版 者 的 话 


文艺 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 垄断 性 的 优势 也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 辈出 、 独 领 风 双 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科 学 著作 ， 不 仅 右 
划 了 研究 的 范畴 ， 还 揭 梨 了 学 术 的 源 变 ， 既 遵循 学 术 规范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅猛 ， 对 专业 人 才 的 需求 日 
益 迫 切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技术 发 展 时间 较 短 、 从 业 人 员 较 少 的 现状 下 ， 美 国 等 发 达 国家 
在 其 计算 机 科学 发 展 的 几 十 年 间 积淀 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国 
外 优秀 计算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 
设 真正 的 世界 一 流 大 学 的 必由之路 。 

机 械 工业 出 版 社 华章 图 文 信息 有 限 公司 较 早 意识 到 “出 版 要 为 教育 服务 "。 自 1998 年 开始 ， 
华章 公司 就 将 工作 重点 放 在 了 寺 选 、 移 译 国外 优秀 教材 上 。 经 过 几 年 的 不 懈 努 力 ， 我 们 与 
Prentice Hall, Addison-Wesley, McGraw-Hill, Morgan Kaufmann 等 世界 著名 出 版 公司 建立 了 
良好 的 合作 关系 ， 从 它们 现 有 的 数 百 种 教材 中 甄选 出 Tanenbaum，Stroustrup，Kernighan ， 
Jim Gray 等 大 师 名 家 的 一 批 经 典 作品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 
究 及 度 藏 。 大理 石 纹理 的 封面 ， 也 正体 现 了 这 套 从 书 的 品位 和 格调 。 

“计算 机 科学 丛书” 的 出 版 工作 得 到 了 国内 外 学 者 的 鼎力 襄 助 ， 国 内 的 专家 不 仅 提供 了 中 
肯 的 选 题 指导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 在 
中 国 的 传播 ， 有 的 还 专程 为 其 书 的 中 译本 作 序 。 记 今 ,“ 计 算 机 科学 丛书 ”已 经 出 版 了 近 百 个 
品种 ， 这 些 书 籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采用 为 正式 教材 和 参考 书籍 ， 为 
进一步 推广 与 发 展 打下 了 坚实 的 基础 。 

随 着 学 科 建 设 的 初步 完善 和 教材 改革 的 逐渐 深化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 
用 都 步 人 一 个 新 的 阶段 。 为 此 ， 华 章 公司 将 加 大 引进 教材 的 力度 ， 在 “华章 教育 ”的 总 规划 
之 下 出 版 三 个 系列 的 计算 机 教材 : 除 “ 计 算 机 科学 丛书 ”之 外 ， 对 影印 版 的 教材 ， 则 单独 开 
辟 出 “经 典 原版 书库 ”; 同时 ， 引 进 全 美 通行 的 教学 辅导 书 “Schaum's Outlines” RAAR 
“全 美 经 典 学 习 指导 系列 "。 为 了 保证 这 三 套 丛书 的 权威 性 ， 同 时 也 为 了 更 好 地 为 学 校 和 老师 
们 服务 ， 华 章 公 司 聘请 了 中 国 科学 院 、 北 京 大 学 、 清 华 大 学 、 国 防 科技 大 学 、 复 旦 大 学 、 上 
海 交通 大 学 、 南 京 大 学 、 浙 江 大 学 、 中 国 科技 大 学 、 哈 尔 滨 工 业 大 学 、 西 安 交 通 大 学 、 中 国 
人 民 大 学 、 北 京 航空 航天 大 学 、 北 京 邮电 大 学 、 中 山大 学 、 解 放 军 理工 大 学 、 郑 州 大 学 、 湖 
北 工 学 院 、 中 国 国 家 信息 安全 测评 认证 中 心 等 国内 重点 大 学 和 科研 机 构 在 计算 机 的 各 个 领域 
的 著名 学 者 组 成 “专家 指导 委员 会 "， 为 我 们 提供 选 题 意见 和 出 版 监督 。 
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这 三 套 丛 书 是 响应 教育 部 提出 的 使 用 外 版 教材 的 号 召 ， 为 国内 高 校 的 计算 机 及 相关 专业 
的 教学 度 身 订 造 的 。 其 中 许多 教材 均 已 为 M. I. T.，Stanford，U.C. Berkeley, C.M. U. 等 世界 
名 有 牌 大 学 所 采用 。 不 仅 涵盖 了 程序 设计 、 数 据 结构 、 操 作 系 统 、 计 算 机 体系 结构 、 数 据 库 
编译 原理 、 软 件 工程 、 图 形 学 、 通 信 与 网 络 、 离 散 数学 等 国内 大 学 计算 机 专业 普遍 开设 的 核 
心 课程 ， 而 且 各 具 特 色 一 一 有 的 出 自 语言 设计 者 之 手 、 有 的 历经 三 十 年 而 不 误 、 有 的 已 被 全 
世界 的 几 百 所 高 校 采 用 。 在 这 些 圆 熟 通 博 的 名 师 大 作 的 指引 之 下 ， 读 者 必 将 在 计算 机 科学 的 
宫殿 中 由 登 堂 而 人 室 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 
图 书 有 了 质量 的 保证 ， 但 我 们 的 目标 是 尽善尽美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 
的 重要 帮助 。 教 材 的 出 版 只 是 我 们 的 后 续 服务 的 起 点 。 华 章 公司 欢迎 老师 和 读者 对 我 们 的 工 
作 提 出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 


电子 邮件 : hzjsj@hzbook.com 
联系 电话 : (010) 68995264 

联系 地 址 : 北京 市 西城 区 百 万 庄 南 街 1 号 
邮政 编码 : 100037 


译 者 序 


UNIX 的 系统 调用 是 UNIX 内 核 与 用 户 程序 之 间 的 接口 ， 是 UNIX 程 序 员 编写 程序 时 必须 要 
掌握 的 重要 内 容 。 

但 是 ，UNIX 规 范 中 大 约 有 1108 个 系统 调用 ， 要 想 通 过 规范 来 学 习 这 些 系统 调用 ， 不 但 村 
燥 无 味 ， 而 且 也 是 不 可 能 的 。 本 书 向 读者 详细 地 介绍 主要 的 系统 调用 ， 并 通过 示例 代码 说 明 
它们 的 使 用 方法 ， 再 进一步 通过 练习 来 实践 这 些 内 容 。 本 书 是 深入 学 习 UNIX、 编 写 应 用 程序 
不 可 多 得 的 优秀 教材 。 

早 在 1985 年 ， 作 者 就 出 版 了 《高 级 UNIX 编 程 》 的 第 1 版 ， 本 书 是 第 2 版 ， 两 版 间隔 近 20 年 
的 时 间 。 这 期 间 ，UNIX 环 境 发 生 了 很 大 变化 ， 出 现 了 POSIX、Solaris、Linux、FreeBSD 以 及 
Darwin (Mac OS X) 等 类 UNIX 系 统 。 第 2 版 中 包括 了 对 以 上 内 容 的 讨论 ; 除了 包含 第 1 版 大 约 
70 个 系统 调用 之 外 ， 又 增加 了 200 多 个 ， 共 有 300 多 个 系统 调用 。 这 300 多 个 系统 调用 包括 : 进 
程 间 通 信 、 网 络 ( 套 接 字 )、 伪 终端 、 高 级 信号 量 、 实 时 处 理 和 线程 等 内 容 ; 同 第 1 版 一 样 ， 
本 书 的 第 2 版 还 包括 了 几 千 行 示例 代码 ， 其 中 大 多 数 来 源 于 实际 程序 (比如 shell、 全 屏 菜单 系 
统 、Web 服 务 器 和 实时 输出 记录 器 ) ， 只 是 在 实际 程序 的 基础 上 进行 了 条 件 简 化 。 这 些 例子 都 
是 用 C 语 言 编写 的 ， 以 帮助 读者 更 好 地 理解 系统 调用 的 含义 和 具体 的 应 用 ; 此 外 ， 在 本 书 的 每 

- 章 后 面 都 有 精心 设计 的 习题 ， 用 于 巩固 所 学 的 内 容 。 这 些 习题 的 难度 不 同 ， 有 的 习题 比较 
简单 ， 而 有 的 习题 则 是 让 读者 运用 所 学 的 知识 进行 综合 性 的 练习 ， 有 一 定 难度 。 

本 书 的 作者 Marc J. Rochkind 自 20 世 纪 70 年 代 开始 就 在 Bell 实 验 室 工 作 ， 长 期 致力 于 UNIX 
系统 的 开发 研究 ， 积 累 了 许多 开发 应 用 系统 的 经 验 ， 本 书 的 第 1 版 出 版 后 就 一 直 为 应 用 程序 的 
编程 人 员 所 青睐 ， 现 在 重新 修订 的 第 2 版 又 对 UNIX 操 作 系统 家 族 最 新 的 、 必 需 的 系统 调用 进 
行 了 系统 深入 的 讲解 和 示范 。 

参加 本 书 翻译 工作 的 有 : EM, BREA. KM. GR. ke. WHR. RRA 
等 ; 王 高 祯 、 杨 素 敏 等 对 全 书 进 行 了 校 阅 、 统 稿 ; 中 国人 民 解 放 军 军械 工程 学 院 米 东 教 授 等 
为 本 书 的 翻译 工作 提出 了 许多 宝贵 的 意见 和 建议 ， 对 他 付出 的 辛勤 劳动 表示 深切 的 谢意 。 由 
于 书 中 涉及 的 知识 面 比较 广泛 ， 再 加 上 译 者 的 水 平 有 限 ， 书 中 错误 和 不 妥 之 处 在 所 难免 ， 奶 
请 广大 读者 批评 指正 。 
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前 Ss 


本 书 是 对 1985 年 版 《Advanced UNIX Programming》 的 更 新 ， 覆 盖 了 过 去 18 年 来 UNIX 所 
发 生 的 一 些 变化 。 也许 “一 些 ” 并 不 确切 ! “更 新 ”同样 不 太 确切 。 的 确 ， 除 了 散落 各 处 的 
个 别名 子 ， 本 书 基本 是 全 新 的 。 第 1 版 大 约 包含 了 70 个 系统 调用 ; 本 版 大 约 包含 了 300 个 。 本 
版 所 讨论 的 UNIX 标 准 和 实现 [POSIX、Solaris、Linux、FreeBSD 以 及 Darwin (Mac OS 
X) ] 在 1985 年 左右 还 未 出 现 。 但 是 我 仍然 可 以 在 1985 年 版 的 前 言 中 找到 一 些 无 需 修改 便 可 
用 在 这 里 的 句子 : 

本 书 的 主题 是 UNIX 系 统 调用 一 一 即 UNIX 内 核 与 在 其 上 层 运行 的 用 户 程序 之 间 的 
接口 。 对 于 那些 仅 使 用 命令 与 系统 交互 (比如 shell、 文 本 编辑 器 以 及 其 他 应 用 程序 ) 
的 人 来 讲 ， 或 许 不 必 对 系统 调用 有 太 多 了 解 ， 但 对 于 UNIX 程 序 员 来 说 ， 对 系统 调用 
的 彻底 了 解 是 至 关 重要 的 。 系 统 调用 是 访问 诸如 文件 系统 、 多 任务 机 制 以 及 进程 间 
通信 原 语 等 内 核 功能 的 唯一 途径 。 

系统 调用 定义 了 UNIX 系 统 到 底 是 什么 。 所 有 的 一 切 (除了 子 程序 和 命令 行 ) 都 
是 建立 在 这 个 基础 之 上 的 。 尽 管 这 些 高 层 程 序 的 计 多 新 烽 之 处 为 UNIX 启 得 了 不 少 名 
声 ， 但 它们 也 同样 可 以 在 任何 现代 操作 系统 上 实现 。 当 人 们 说 UNIX 系 统 是 个 雅 下 的 、 
简单 的 、 高 效 的 、 可 人 靠 的 和 可 移植 的 操作 系统 时 ， 指 的 不 是 其 命令 (其 中 一 些 并 不 
怎么 样 )， 而 是 其 内 核 。 

以 上 所 说 仍然 正确 ， 只 是 有 一 点 令 人 遗憾 : 现在 内 核 的 编程 接口 不 再 那么 雅致 、 简 单 了 。 
事实 上 ， 由 于 在 过 去 几 十 年 中 UNIX 的 发 展 分 裂 为 几 个 分 支 ， 同 时 因为 最 初 的 标准 化 组 织 
(The Open Group) 将 几乎 所 有 已 有 的 函数 都 集合 了 起 来 (一 共 1108 个 函数 )， 所 以 导致 接口 
EAE. AR. TR, BBWAA. HERR. THRIFT EH, ， 这 就 是 为 什么 
UNIX 和 类 UNIX 系 统 如 此 成 功 的 原因 。 的 确 ，UNIX 系 统 调用 接口 是 迄今 我 们 所 拥有 的 唯一 一 
个 具有 广泛 可 移植 性 的 接口 ， 而 且 这 种 状况 可 能 在 我 们 有 生 之 年 不 会 改变 。 

为 了 理 清 问题 ， 拥 有 全 部 的 文档 是 不 够 的 ， 就 像 仅 仅 拥有 黄页 并 不 能 找到 好 的 饭店 或 宾 
馆 一 样 。 我 们 需要 一 位 向 导 ， 能 够 告诉 我 们 什么 是 好 的 、 什 么 是 坏 的 ， 而 不 仅仅 是 告诉 我 们 
有 哪些 东西 。 这 就 是 本 书 的 目的 所 在 ， 也 是 本 书 与 其 他 UNIX 编 程 书 的 不 同 之 处 。 本 书 不 仅 要 
指导 读者 如 何 使 用 系统 调用 ， 还 要 告诉 他 们 不 要 使 用 哪些 系统 调用 ， 因 为 那些 系统 调用 都 不 
是 必需 的 ， 它 们 有 的 过 时 了 ， 有 的 未 被 正确 地 实现 ， 有 的 设计 得 很 精 糕 。 

下 面 简单 介绍 一 下 本 书 的 大 致 内 容 : 开篇 将 介绍 单一 UNIX 规 范 第 3 版 中 定义 的 1108 个 函 
数 ， 但 其 中 去 掉 了 大 约 590 个 标准 C 函 数 和 其 他 不 属于 内 核 接口 层 的 库 函 数 、 大 约 90 个 POSIX 
线程 函数 (保留 了 其 中 十 多 个 最 为 重要 的 )、 大 约 25 个 审计 登录 函数 、 大 约 50 个 跟踪 函数 、 大 
约 15 个 聊 涩 废旧 的 函数 以 及 大 约 40 个 用 于 调度 和 其 他 不 大 有 用 的 函数 。 本 书 真正 要 介绍 的 只 
有 307 个 。( 见 附录 DD 的 列表 。) 不 是 说 这 307 个 全 是 好 的 函数 一 -有 的 也 没什么 用 处 ， 有 的 甚至 
还 是 危险 的 。 但 这 307 个 函数 都 是 读者 需要 了 解 的 。 

本 书 没有 包括 以 下 内 容 : 内 核实 现 ( 除 了 一 些 基本 的 )、 设 备 驱 动 程序 、C 程 序 设 计 (有 
些 间 接 的 除外 )、UNIX 命 令 (shell、vi、emacs 等 ) 和 系统 管理 。 


VIII 


全 书 共有 9 章 : 基本 概念 、 基 本 文件 /JO、 高 级 文件 1/O、 终 端 /O、 进 程 和 线程 、 基 本 的 进 
程 间 通信 、 高 级 进程 间 通 信 、 网 络 和 套 接 字 以 及 信号 和 定时 器 。 先 通读 第 1 章 ， 而 后 就 可 以 自 
由 跳跃 浏览 了 。 其 中 有 许多 交叉 参考 ， 能 避免 在 阅读 中 迷失 。 

同 第 1 版 一 样 ， 这 本 新 书包 括 了 几 千 行 示例 代码 ， 其 中 大 多 数 来 源 于 实际 程序 《比如 shell、 
全 屏 菜 单 系统 、Web 服 务 器 和 实时 输出 记录 器 ) ， 并 进行 了 简化 。 这 些 例子 都 是 用 C 语 言 编写 
的 ， 但 在 本 书 的 附录 B 和 附录 C 中 给 出 了 其 他 语言 的 接口 ， 所 以 如 果 你 喜欢 ， 就 可 以 采用 C++、 
Java 或 Jython (Python 的 变 体 ) 来 编程 。 

文字 和 示例 代码 仅仅 是 种 资源 ; 实际 上 还 要 通过 练习 来 学 习 UNIX 编 程 。 为 了 提供 练习 ， 
在 每 章 的 末尾 都 有 练习 题 。 这 些 练习 难度 不 一 ， 有 的 只 需要 简单 地 编写 几 行 代码 ， 有 的 则 是 
一 学 期 的 课程 设计 。 

我 选 了 4 种 UNIX 系 统 作为 详细 研究 之 用 ， 并 用 来 测试 例子 : Solaris 8、SuSE Linux 8 (2.4 
PAK), FreeBSD 4.6 和 Darwin (Mac OS X 内 核 ) 6.8。 我 将 源码 保存 在 FreeBSD 系 统 上 ， 然 后 
用 NFS 或 Samba 把 代码 安装 到 其 他 系统 上 。9S 

我 在 Windows 系 统 上 用 TextPad 编 辑 代码 ， 使 用 Telnet、SSH (PuTTY) 或 者 X Window 系 统 
(XFree86 和 Cygwin) 访 问 4 个 测试 系统 。 在 同一 显示 屏 上 打开 文本 编辑 器 和 4 个 
Telnet/SSH/Xterm 窗 口 十 分 方便 ， 因 为 从 写 代 码 到 在 4 个 系统 上 测试 只 需要 几 分 钟 时 间 。 另 外 ， 
我 常常 使 用 一 个 浏览 器 窗口 打开 单一 UNIX 规 范 ， 一 个 浏览 器 窗口 打开 Google， 一 个 浏览 器 窗 
口 运行 Microsoft Word 写 书 。 除 了 Word 对 于 像 书 之 类 的 大 型 文档 ( 破 折 号 ,混合 样式 ， 弱 交 
叉 引 用 ,古怪 的 文档 组 合 ) 有 些 糟糕 之 外 ， 所 有 的 工具 都 很 好 用 。 我 使 用 Perl 和 Python 做 了 
不 同 的 事情 ， 比 如 抽取 代码 样本 和 维护 系统 调用 的 数据 库 。 

所 有 的 示例 代码 (免费 公开 代码 ) 、 勘 误 表 和 更 多 的 内 容 都 在 本 书 的 Web 站 点 
www.basepath.com/aup 上 。 

我 要 感谢 那些 审阅 了 草稿 或 者 以 其 他 方式 提供 了 技术 支持 的 人 : Tom Cargill、Geoff 
Clare, Andrew Gierth, Andrew Josey, Brian Kernighan, Barry Margolin, Craig Patridge 和 
David Schwartz。 另 外 还 要 特别 感谢 那些 专心 细致 地 审阅 了 草稿 但 要 求 匿名 的 人 。 当 然 ， 这 些 
人 不 需要 为 您 在 本 书 中 找到 的 错误 受到 谴责 一 我 信任 他 们 。 

我 还 要 感谢 我 的 编辑 一 一 Mary Franz， 是 她 在 一 年 前 提议 编写 该 书 的 。 幸 运 的 是 ， 她 正好 
是 在 我 深入 浏览 了 Linux 并 再 一 次 为 UNIX 而 兴高采烈 的 时 候 找到 了 我 。 这 使 我 回想 起 1972 年 

我 真心 希望 您 能 从 本 书 中 得 到 快乐 ! 如 果 您 发 现 了 错误 ， 或 者 您 将 代码 移植 到 了 新 的 系 
统 中 ， 或 者 您 只 是 想 分 享 您 的 想法 ， 那 么 请 给 我 发 邮件 : aup@basepath.com. 





Marc J. Rochkind 
Boulder, Colorado 
2004 年 4 月 


O 这 4 个 系统 运行 在 我 多 年 收集 的 不 同 的 上 日 PC 和 一 台 我 花 了 200 美 元 在 eBay 上 购买 的 Mac 上 。 使 用 SuSE 并 没有 
特别 的 原因 ， 我 已 经 在 那 台 机 器 上 安装 了 RedHat 9. 

O 我 本 可 以 采用 任何 一 个 系统 作为 基础 系统 。Windows 用 起 来 很 方便 ， 因 为 我 的 宽 LCD 显 示 器 连接 在 这 个 系 
统 上 ， 而且 我 喜欢 用 TextPad (www.textpad.com)。 有 关 PuTTY 的 信息 请 参见 站 点 www.chiark.greenend.org. 
uk/~sgtatham/putty/。( 如 果 这 个 链接 不 管用 的 话 ，Google -F “PuTTY”. ) 


专家 指导 委员 会 
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第 1{ 章 基本 概念 


1.1 UNIX 和 Linux 一 览 


本 节 将 快速 浏览 UNIX 和 Linux 内 核 提供 的 各 种 功能 。 这 里 不 会 涉及 那些 通常 和 UNIX 一 起 
提供 的 用 户 程序 (命令 )， 如 1s、vi 和 grep。 对 它们 的 讨论 已 经 超出 了 本 书 范围 。 同 时 ， 本 
书 也 不 会 过 多 涉及 有 关系 统 内 核 的 问题 (如 文件 系统 是 如 何 实现 的 )。( 从 现在 起 ， 在 书 中 只 
要 提 及 UNIX 一 词 ， 其 概念 均 包含 Linux， 除 非 另 有 说 明 。) 

本 节 的 目的 旨 在 进行 一 次 复习 。 因 为 这 里 假设 读者 已 对 某 些 概念 〈 如 进程 等 概念 ) 有 了 
粗略 了 解 ， 所 以 在 使 用 这 些 概念 时 不 会 先 对 其 进行 定义 。 如 果 读者 对 所 提 及 的 概念 有 些 生 玻 ， 
那 就 需要 在 阅读 本 书 前 先 了 解 一 下 UNIX 系 统 (如 果 还 不 知道 “进程 ”是 什么 ， 那 就 必须 要 先 
热 热身 ! )。 目 前 ， 有 许多 UNIX 的 入 门 书籍 可 帮助 读者 启蒙 ， 其 中 有 两 本 不 错 的 书 :《UNIX 
开发 环境 》(The UNIX Programming Environment) [Ker 1984] 和 《UNIX 速 成 》(UNIX for the 
Impatient) [Abr 1996] (第 2 章 是 一 个 非常 好 的 入 门 介绍 )。® 


1.1.1 文件 

UNIX 文 件 包括 以 下 几 种 : 常规 文件 、 目 录 、 符 号 链接 、 特 殊 文件 、 命 名 管道 (FIFO) 和 
ERF (socket) 文件 。 这 里 先 介绍 前 4 种 文件 ， 后 两 种 将 在 1.1.7 节 中 介绍 。 

1.1.1.1 常规 文件 

常规 文件 (Regular file) 包含 以 线性 数组 组 织 的 数据 字 节 。 任 何 字 节 或 字 节 序列 都 可 被 
读 或 写 。 读 或 写 时 的 开始 字 节 位 置 由 文件 偏 移 重 (file offset) 确定 ， 后 者 可 设 定 为 任意 数值 
(甚至 可 以 超出 文件 末尾 )。 另 外 ， 常 规 文件 存储 在 磁盘 上 。 

不 能 在 文件 中 插入 字 节 (向 两 端 扩展 文件 ) 或 删除 字 节 (向 中 间 收缩 文件 )， 字 节 将 被 写 
入 到 文件 的 末尾 ， 每 次 一 个 字 节 ， 文 件 长 度 随 之 增加 。 文 件 可 以 缩短 或 增加 到 任意 长 度 ， 并 
可 以 删除 字 节 或 添加 零 字 节 。 

同一 文件 可 同时 被 两 个 或 两 个 以 上 的 进程 并 发 读 写 。 其 结果 依赖 于 每 个 1O 请 求 发 生 的 次 
序 ， 且 往往 不 可 预见 。 维 护 次 序 的 机 制 可 通过 文件 锁 功能 和 信和 号 量 (semaphore) 来 实现 ， 它 
们 是 进程 可 以 检测 和 设置 的 系统 范围 内 的 标志 〈 详 见 1.1.7 节 )。 

文件 没有 名 称 ， 只 有 被 称 为 索引 节 号 (i-number) 的 数字 。 一 个 索引 节 号 是 一 批 信息 节点 
(i-mode) 的 索引 ， 这 些 信息 节点 存储 在 每 个 包含 UNIX 文 件 系统 的 磁盘 区 域 的 前 部 。 每 一 个 信 
息 节 点 包含 关于 一 个 文件 的 重要 信息 。 有 趣 的 是 ， 这 个 信息 既 不 包括 文件 名 称 ， 也 不 包括 数 
据 字 节 。 它 包括 以 下 内 容 : 文件 类 型 (WM. BR. BES), BRB ( 稍 后 给 出 解释 )、 
文件 所 有 者 ID 和 组 ID、 三 组 访问 权限 (用 户 权限 、 组 权限 和 其 他 权限 )、 字 节 数 、 最 后 访问 时 
间 、 最 后 修改 时 间 、 状 态 改变 时 间 (信息 节点 最 后 被 修改 的 时 间 )， 当 然 还 有 指向 包含 文件 内 
容 的 磁盘 块 的 指针 。 


O 本 书 在 末尾 提供 了 参考 文献 。 
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1.1.1.2 目录 和 符号 链接 

由 于 使 用 索引 节 号 标识 文件 不 方便 ， 所 以 引入 目录 (directory) 来 使 用 名 称 标识 文件 。 在 
实际 中 ， 几 乎 总 是 用 目录 来 进行 文件 访问 。 

概念 上 ， 每 个 目录 包含 一 个 两 列表 ， 一 列 是 文件 名 称 ， 另 一 列 是 对 应 的 索引 节 号 。 名 称 / 
信息 节点 对 被 称 为 链接 (link)。 当 UNIX 内 核 通 过 名 称 访问 文件 时 ， 它 会 自动 查询 目录 来 找寻 
索引 节 号 ， 然 后 获得 对 应 的 、 包 含 文件 更 多 信息 的 信息 节点 (如 谁 有 权 访问 该 文件 )。 如 果 允 
许 访问 数据 本 身 ， 信 息 节点 会 给 出 磁盘 上 的 存储 位 置 。 

目录 和 常规 文件 非常 类 似 ， 也 占用 一 个 信息 节点 并 拥有 数据 。 因 此 ， 在 一 个 目录 中 ， 对 应 
于 一 个 特定 名 称 的 信息 节点 也 可 以 是 另 一 个 目录 中 的 信息 节点 。 这 样 就 允许 用 户 按照 UNIX 用 
户 所 熟悉 的 层次 结构 来 安排 文件 。 例 如 ，memo/july/smith 的 路 径 (path) 指示 内 核 获取 当 
前 目录 的 信息 节点 以 确定 其 数据 字 节 的 存储 位 置 ， 然 后 从 这 些 数 据 字 节 中 寻找 memo， 获 取 对 
应 的 索引 节 号 ， 间 获取 其 信息 节点 以 确定 memo 目 录 的 数据 字 节 位 置 ， 再 从 这 些 数据 字 节 中 找 
出 july， 获 取 对 应 的 索引 节 号 ， 并 获取 信息 节点 以 确定 july 目 录 的 数据 字 节 位 置 ， 最 终 找到 
smith， 并 获取 对 应 的 信息 节点 ， 该 信息 节点 就 是 和 memo/july/smith 相 关联 的 信息 节点 。 

在 对 相对 路 径 (relative path) (从 当前 目录 开始 的 路 径 ) 进行 追溯 时 ， 内 核 怎样 知道 应 该 
从 何 处 开始 呢 ? 只 需要 简单 地 为 每 个 进程 保存 其 当前 目录 的 索引 节 号 即 可 。 当 进程 改变 其 当 
前 目录 时 ， 它 必须 提供 新 目录 的 路 径 ， 该 路 径 对 应 的 索引 节 号 作为 新 的 当前 目录 的 索引 节 号 
来 保存 。 

以 “/” 为 开头 的 绝对 路 径 (absolute path) ， 其 起 点 在 根 (root) 目录 。 内 核 为 根 目录 简 
单 地 保留 了 一 个 索引 节 号 (比方 说 是 2) ， 这 在 文件 系统 初次 设立 时 就 已 建立 。 通 过 系统 调用 
可 以 改变 进程 的 根 目录 ( 变 为 不 是 2 的 其 他 索引 节 号 ) 。 

由 于 目录 的 两 列 结构 直接 由 内 核 使 用 (这 是 内 核 关 心 文件 内 容 的 少量 特例 之 一 ) ， 同 时 因 
为 一 个 无 效 目录 的 存在 可 能 很 容易 使 整个 UNIX 系 统 崩溃 ， 所 以 程序 (即使 以 超级 用 户 权限 来 
执行 ) 不 能 像 常规 文件 那样 写 目 录 。 要 想 对 目录 进行 操作 ， 程 序 就 必须 使 用 一 套 特定 的 系统 
调用 。 总 而 言 之 ， 合 法 的 写 操作 仅 包括 链接 的 增加 去除。 

可 以 使 用 同一 个 索引 节 号 来 标识 相同 或 不 同 目录 中 的 两 个 或 两 个 以 上 的 链接 。 这 意味 着 
同一 文件 可 能 拥有 一 个 以 上 的 名 称 。 但 在 通过 给 定 路 径 访问 文件 时 不 会 产生 多 义 性 ， 因 为 只 
会 找到 一 个 索引 节 号 。 当 然 ， 也 可 以 通过 其 他 路 径 获取 索引 节 号 ， 但 结果 也 是 一 样 的 。 然 而 ， 
当 在 目录 中 删除 某 个 链接 时 ， 不 能 立刻 明确 其 信息 节点 以 及 关联 的 数据 字 节 是 否 也 可 被 丢弃 。 
这 就 是 信息 节点 中 包含 链接 计数 的 原因 。 去 除 指向 信息 节点 的 某 个 链接 ， 只 会 减少 其 链接 计 
数 ， 当 计数 值 为 零 时 ， 内 核 就 删除 该 文件 。 

对 于 为 什么 不 像 常规 文件 一 样 存在 目录 的 多 重 链接 这 一 问题 ， 并 没有 结构 上 的 原因 。 然 
而 ， 它 会 使 得 扫描 整个 文件 系统 命令 的 编程 变 得 更 为 复杂 ， 因 此 ， 大 多 数 内 核 将 其 排除 在 外 。 

利用 索引 节 号 指向 文件 的 多 重 链 接 只 在 这 些 链 接 都 属于 同一 文件 系统 时 才 起 作用 ， 因 为 
索引 节 号 的 唯一 性 仅 限于 一 个 文件 系统 内 部 。 为 避免 这 种 情况 带 来 的 后 果 ， 还 可 以 采用 符号 
链接 (symbolic link)， 它 将 要 链接 的 文件 路 径 保 存在 一 个 真实 文件 的 数据 部 分 中 。 这 种 方式 
比 在 某 处 制作 一 个 第 二 目录 的 开销 要 大 ， 但 是 它 更 为 常用 。 用 户 不 需要 读 和 写 这 些 符号 链接 
文件 ， 而 仅 需 使 用 为 符号 链接 所 准备 的 专门 系统 调用 。 

1.1.1.3 特殊 文件 

特殊 文件 (special file) 通常 是 某 种 类 型 的 设备 (如 CD-ROM 驱 动 或 通信 和 链 路 等 )。9S 


O 有 时 ， 命 名 管道 也 被 当成 是 特殊 文件 ， 但 本 书 将 其 另 归 为 一 类 。 
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设备 特殊 文件 有 两 种 基本 类 型 : 块 和 字符 。 决 特殊 文件 (block special file) 遵循 以 下 特 
定 模型 :设备 包含 固定 长 度 块 (如 每 块 4096 字 节 ) 的 数组 ， 并 使 用 内 核 线 冲 区 (buffer) 池 作 
为 高 速 缓冲 存储 器 来 加 速 JO 操 作 。 字 符 特 殊 文 件 (character special file) 根本 不 用 遵循 任何 
规则 ， 它 们 进行 JO 操 作 时 可 以 传输 很 小 的 块 (字符 ) ， 也 可 以 传输 很 大 的 块 (磁盘 磁道 )， 
此 ， 它 们 不 太 规则 ， 不 适合 使 用 缓冲 区 缓存 。 

同一 个 物理 设备 可 以 同时 具有 块 和 字符 特殊 文件 ， 事 实 上 ， 磁 盘 就 是 这 样 的 物理 设备 。 内 核 
中 的 文件 系统 代码 通过 一 个 块 特殊 文件 访问 常规 文件 和 目录 时 ， 可 从 缓冲 区 缓存 中 获 益 。 有 时 ， 
尤其 是 高 性 能 的 应 用 程序 ， 需 要 进行 更 直接 的 访问 。 例 如 ， 一 台数 据 库 管理 器 可 以 完全 跳 过 文件 
系统 ， 使 用 一 个 字符 特殊 文件 访问 磁盘 (但 不 是 文件 系统 使 用 的 区 域 )。 大 多 数 UNIX 系 统 拥有 这 
种 类 型 的 字符 特殊 文件 ， 它 可 以 使 用 直接 存储 器 访问 (direct memory access, DMA) 种 可 
以 成 数量 级 提高 性 能 的 方式 ， 直 接 在 进程 的 地 址 空间 和 磁盘 之 间 传 输 数据 、 进 行 存 取 。 其 另 一 
个 好 处 是 错误 检测 的 鲁 棒 性 更 好 ， 因 为 缓冲 区 缓存 的 间接 性 会 使 得 错误 检测 难以 实现 。 

一 个 特殊 文件 有 一 个 信息 节点 ， 但 在 磁盘 上 没有 任何 指向 该 信息 节点 的 数据 字 节 。 相 反 ， 
在 信息 节点 的 那 部 分 数据 字 节 中 包含 了 一 个 设备 号 (device number) ， 它 是 一 个 列表 的 索引 ， 
该 列表 是 内 核 用 来 查找 一 种 叫 设备 驱动 程序 (device driver) 的 子 程序 集合 的 。 

当 执行 系统 调用 对 特殊 文件 进行 操作 时 ， 将 调用 相应 的 设备 驱动 子 程序 。 接 着 发 生 的 事情 
完全 取决 于 设备 驱动 程序 的 设计 者 ， 因 为 驱动 程序 是 在 内 核 中 运行 的 ， 而 不 是 作为 用 户 进程 运 
行 的 ， 所 以 它 能 够 访问 (甚至 修改 ) 任意 内 核 部 分 、 任 意 用 户 进程 以 及 计算 机 本 身 的 任意 注册 
变量 或 内 存 。 因 为 向 内 核 中 添加 新 的 驱动 程序 相对 简单 ， 所 以 采用 该 方式 提供 一 个 钧 子 ， 不 仅 
可 实现 与 新 型 的 1O 设 备 进行 交互 ， 而 且 还 可 做 许多 事情 。 一 种 最 流行 的 办 法 是 ， 让 UNIX 做 一 
些 它 的 设计 者 从 未 打算 让 它 做 的 事 。 想 像 用 认可 的 方法 去 做 一 些 很 疯狂 事情 的 感觉 。 


1.1.2 程序 、 进 程 和 线程 


程序 (Program) 是 指 在 磁盘 常规 文件 中 存储 的 指令 (instruction) 和 数据 (data) 的 集合 。 
在 它 的 信息 节点 中 ， 文 件 被 标记 为 可 执行 的 ， 文 件 的 内 容 是 按照 内 核 建立 的 规则 进行 安排 的 。 
(这 是 内 核 关 注 文件 内 容 的 另 一 个 例子 。) 

程序 员 可 以 选用 任何 方法 创建 可 执行 文件 。 只 要 文件 内 容 遵循 规则 并 将 文件 标记 为 可 执 
行 的 ， 程 序 就 能 运行 。 在 实际 中 ， 常 按 如 下 步骤 进行 : 首先 ， 将 使 用 某 种 程序 设计 语言 的 源 
程序 (如 C 或 C++) 输入 到 常规 文件 中 ， 通 常 称 为 文本 文件 (text file) ， 因 为 它 是 按照 文本 行 
的 方式 安排 的 。 其 次 ， 创 建 一 个 称 作 目 标 文件 (object file) 的 常规 文件 ， 其 中 包含 源 程序 的 
机 器 语言 的 翻译 结果 。 这 项 任务 由 编译 器 或 汇编 程序 (它们 本 身 也 是 程序 ) 来 完成 。 如 果 这 
个 目标 文件 是 完备 的 〈 没 有 缺少 子 程序 ) ， 就 标识 为 可 执行 的 ， 认 为 其 可 以 运行 。 如 果 不 完备 ， 
就 使 用 链接 器 (linker) (在 UNIX 的 术语 中 有 时 叫 装载 器 ) 来 链接 这 一 目标 文件 和 其 他 那些 先 
前 产生 的 文件 ， 那 些 先前 产生 的 文件 取 自 一 个 称 为 库 (library) 的 目标 文件 的 集合 。 除 非 链 
接 器 找 不 到 它 所 寻找 的 东西 ， 它 的 输出 才 是 完全 的 、 可 执行 的 。9S 

为 了 运行 一 个 程序 ， 首 先 要 请 求 内 核 产 生 一 个 新 进程 ， 它 是 程序 运行 的 环境 ， 由 三 个 部 
分 组 成 :指令 段 (instruction segment) ©, AP K4EM (user data segment) 和 系统 数据 段 





O 这 不 像 解 释 性 语言 如 Java、Perl、Python 和 shell 脚 本 那样 工作 。 对 它们 来 说 ， 可 执行 的 是 解释 器 ， 即 使 将 程 
序 编译 成 菜 种 中 间 代码 ， 也 仅仅 是 为 解释 器 提供 数据 ， 并 且 UNIX 内 核 决 不 会 见 到 或 关心 它们 。 内 核 的 客 


户 是 解释 器 。 
日 在 UNIX 的 专门 术语 中 ， 将 指令 段 叫做 “文本 段 "， 这 里 是 为 了 避免 术语 的 混淆。 
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(system data segment) 。 程 序 是 用 来 初始 化 指令 和 用 户 数 据 的 。 初 始 化 完成 后 ， 进 程 开 始 脱离 
运行 的 程序 。 虽 然 现代 程序 员 通常 并 不 修改 指令 ， 但 会 修改 数据 。 另 外 ， 进 程 可 能 会 请 求 程 
序 没有 声明 的 资源 (更 多 的 内 存 、 打 开 的 文件 等 )。 

当 进 程 运行 时 ， 内 核 将 记录 所 有 那些 对 进程 数据 的 相同 部 分 进行 读 和 写 的 线程 。 每 一 个 
RA (thread) 是 一 个 单独 的 指令 控制 流 。( 实 际 上 ， 每 一 个 线程 都 有 自己 的 堆栈 。) 在 编程 时 ， 
除非 执行 特殊 的 系统 调用 来 创建 其 他 线程 ， 否 则 只 能 从 一 个 线程 开始 。 因 此 ， 初 学 者 可 以 认 
为 进程 是 单线 程 的 。9 

几 个 并 发 运行 的 进程 可 以 由 同一 个 程序 初始 化 。 然 而 ， 在 这 些 进程 之 间 不 存在 功能 性 的 
关系 。 通 过 安排 这 样 的 进程 来 共享 指令 段 ， 内 核 也 许 能 节省 内 存 ， 但 参与 的 进程 并 不 能 察觉 
这 样 的 共享 。 相 反 ， 在 同一 进程 的 线程 之 间 具 有 很 强 的 功能 性 关系 。 

进程 的 系统 数据 (system data) 包括 诸如 当前 目录 、 打 开 文 件 的 描述 符 、 累 计 CPU 时 间 等 
属性 。 进 程 不 能 直接 访问 或 修改 它 的 系统 数据 ， 因 为 它 处 于 进程 的 地 址 空间 之 外 。 然 而 ， 可 
以 通过 多 种 系统 调用 对 这 些 属性 进行 访问 或 修改 。 

由 内 核 在 当前 运行 进程 的 基础 上 产生 的 新 进程 称 为 原 进 程 的 子 进程 (child process), J 
进程 称 为 父 进程 (parent process) 。 子 进程 继承 了 父 进程 的 大 多 数 系统 数据 属性 。 例 如 ， 如 果 
父 进程 拥有 打开 的 文件 ， 这 些 文件 对 子 进程 同样 处 于 打开 状态 。 这 种 类 型 的 继承 是 UNIX 操 作 
的 本 质 ， 正 如 本 书 所 要 展示 的 。 这 不 同 于 创建 新 线程 的 线程 ， 同 一 进程 中 的 线程 在 大 多 数 方 
面 都 是 平等 的 ， 不 存在 继承 关系 。 所 以 线程 都 平等 访问 全 部 数据 和 资源 ， 而 不 是 它们 的 副本 。 


1.1.3 信号 

内 核 可 以 向 进程 发 送信 号 (signal) 。 信 号 可 以 由 内 核 自 身 产生 ， 从 进程 自身 发 送 ， 从 其 
他 进程 发 送 或 以 用 户 的 名 义 发 送 。 

例如 : 段 式 违例 信号 是 一 个 由 内 核发 出 的 信号 ， 是 在 进程 试图 访问 其 地 址 空间 以 外 的 内 
存 时 发 出 的 # 一 个 进程 发 送 给 自身 的 信号 例子 是 abort 信 和 号， 由 abort 函 数 发 出 ， 用 来 终止 一 
个 主 存储 器 信息 转 储 的 进程 ， 一 个 由 进程 发 送 给 其 他 进程 的 信号 例子 是 termination 信 号 ， 由 
几 个 相关 进程 之 一 在 决定 终止 所 有 相关 进程 时 发 出 ， 一 个 由 用 户 发 出 的 信号 例子 是 中 断 信号 ， 
当 用 户 键入 Ctrl-c 时 ， 发 送 给 由 该 用 户 创建 的 所 有 进程 。 

信号 的 类 型 约 有 28 种 ( 某 些 版 本 的 UNIX 可 能 有 所 出 入 )。 除 kill 信 号 和 stop 信 和 号外， 进程 
对 收 到 的 其 他 信和 号， 能 控制 响应 行为 。 它 既 可 以 接受 默认 的 行为 ,通常 结果 是 终止 进程 ， 也 
可 以 忽略 信号 ， 还 可 以 在 收 到 信号 时 ， 捕 获 信号 并 执行 某 个 函数 ( 称 为 信号 处 理 程序 )。 信 号 
的 类 型 (如 SIGALRM) 是 作为 参数 传递 给 处 理 程序 的 。 然 而 ， 处 理 程序 无 从 得 知 是 谁 发 送 的 
信和 号。® 当 信 号 处 理 程序 返回 时 ， 进 程 从 断 点 继续 运行 。 有 两 种 信号 没有 被 内 核 使 用 ， 这 可 
能 是 应 用 程序 用 于 其 自身 的 。 


1.1.4 进程 ID、 进 程 组 和 会 话 

每 一 个 进程 都 有 自己 的 进程 ID (process-ID)， 该 ID 为 正 整数 ， 在 任何 时 刻 都 确保 是 唯一 
的 。 除 了 一 个 进程 之 外 ， 其 他 每 个 进程 都 有 其 父 进程 。 

在 进程 的 系统 数据 中 ， 同 样 保留 其 父 进 程 ID (parent-process-ID) ， 即 其 父 进程 的 进程 ID 。 


O 并 不 是 每 一 个 UNIX 版 本 都 支持 多 线程 。 多 线程 是 POSIX 线 程 (缩写 为 “ptread") 选项 特征 的 一 部 分 ， 它 
们 是 在 20 世 纪 90 年 代 中 期 被 引入 的 。 关 于 POSIX 更 多 的 内 容 见 1.5 节 ， 有 关 线 程 的 内 容 见 第 5 章 。 
O 对 于 28 种 基本 信号 来 说 是 这 样 的。 实时 信号 选项 为 某 些 可 用 的 信息 添加 了 一 些 信号 。 详 见 第 9 章 。 
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如 果子 进程 的 父 进 程 在 子 进程 结束 前 终止 ， 导 致 其 子 进程 成 为 “孤儿 ”， 那 么 其 父 进 程 ID 将 变 
Al (或 其 他 固定 值 )。 该 值 是 在 启动 时 创建 的 初始 化 进程 的 进程 ID， 是 所 有 其 他 进程 的 “ 祖 
先 "。 换 名 话说， 初始 化 进程 收留 所 有 的 “孤儿 ”。 

在 实现 子 系统 时 ， 程 序 员 有 时 会 选用 一 组 相关 进程 来 实现 ， 而 不 是 单个 进程 。UNIX 内 核 允 
许 将 这 些 相关 进程 组 织 成 进程 组 (process group) ， 进 程 组 可 以 进一步 组 织 成 会 话 (session)。 

会 话 的 成 员 之 一 是 会 话 领 导 者 (session leader) ， 每 个 进程 组 的 成 员 之 一 是 进程 组 领导 者 
(process-group leader) 。 对 于 每 一 个 进程 ，UNIX 都 会 记录 其 进程 组 领导 者 和 会 话 领导 者 的 进 
程 ID， 这 样 ， 每 个 进程 都 能 在 这 种 层次 结构 中 找到 自己 的 位 置 。 

内 核 提供 的 系统 调用 是 用 于 向 进程 组 的 每 个 成 员 发 送信 号 的 。 通 常 被 用 于 终止 整个 组 ， 
但 任何 信号 都 可 以 通过 这 种 方式 广播 。 

UNIXI RRF (shell) 一 般 会 为 每 个 登录 创建 一 个 会 话 。 它 们 通常 为 流水 线 进程 创建 一 
个 单独 的 进程 组 ， 在 此 上 下 文中 ， 进 程 组 也 可 称 为 任务 (job)。 但 这 只 是 外 这 处 理 问 题 的 方 
式 ， 内 核 允许 更 灵活 的 处 理 方式 ， 使 得 每 个 单独 的 登录 都 可 以 建立 任意 数量 的 会 话 ， 每 个 会 
话 所 拥有 的 进程 组 都 可 以 用 它 喜 欢 的 方式 来 建立 ， 只 是 需要 保持 其 层次 结构 。 

其 工作 方式 如 下 : 任何 进程 都 可 以 脱离 原先 所 在 的 会 话 ， 并 成 为 自身 会 话 (只 包含 一 个 进 
程 的 进程 组 ) 的 领导 者 。 然 后 它 可 创建 子 进程 并 扩充 为 新 进程 组 。 在 这 个 会 话 中 ， 还 可 建立 其 
他 进程 组 ， 并 将 进程 分 配 到 不 同 的 进程 组 中 (这 种 分 配 也 可 改变 )。 因 此 ， 一 个 单独 的 用 户 可 
能 会 运行 这 样 一 个 会 话 : 比如 该 会 话 由 10 个 进程 构成 ， 而 这 10 个 进程 又 被 包含 于 3 个 进程 组 中 。 

会 话 和 它 的 进程 可 以 拥有 控制 终端 (controlling terminal) 一 一 由 会 话 领导 者 打开 的 第 一 
个 终端 设备 ， 这 时 会 话 领导 者 成 为 控制 进程 (controlling process)。 通 常 ， 用 户 进程 的 控制 终 
端 是 用 户 登 录 所 用 的 终端 。 当 建立 新 会 话 时 ， 新 会 话 中 的 进程 不 再 拥有 控制 终端 ， 除 非 已 存 
在 一 个 打开 的 终端 。 在 一 些 所 谓 的 后 台 程 序 (daemon) © (Web 服务 器 、cron 工 具 等 ) H, 
并 不 存在 控制 终端 ， 这 些 后 台 程序 一 旦 启动 ， 就 会 和 启动 它们 的 终端 分 开 运行 。 

通过 组 织 可 以 实现 会 话 中 仅 有 一 个 进程 组 ( 即 前 台 任务 ) 可 以 访问 终端 ， 并 且 也 可 以 在 
前 台 和 后 台 之 间 来 回 移动 进程 组 ， 这 称 为 任务 控制 (job control) 。 在 试图 访问 终端 的 后 台 进 
程 组 还 没有 被 移 至 前 台 之 前 ， 先 将 其 挂 起 。 这 样 可 以 阻止 其 非法 获取 来 自前 台 任务 的 输入 或 
修改 前 台 进 程 组 的 输出 。 

如 果 不 采用 任务 控制 (一般 只 有 shell 使 用 它 )， 那 么 会 话 中 的 所 有 进程 则 都 是 有 效 的 前 台 
进程 ， 都 可 以 平等 地 自由 访问 终端 ， 即 使 灾难 就 在 前 方 ( 随 之 而 来 的 就 是 灾难 )。 

终端 设备 驱动 程序 可 以 发 出 中 断 、 退 出 和 挂机 信号 ， 这 些 信号 从 该 终端 发 向 以 其 为 控制 终 
端的 前 台 进程 组 中 的 每 个 进程 。 例 如 ， 除 非 采取 预防 措施 ， 否 则 挂 断 终端 (例如 ， 关 闭 一 个 
telnet 连 接 ) 会 终止 该 组 中 的 所 有 用 户 进程 。 为 避免 此 类 情况 ， 可 设置 进程 忽略 挂 断 信号 。 

另外 ， 无 论 什么 原因 ， 只 要 会 话 领导 者 (控制 进程 ) 终止 ， 所 有 前 台 进程 组 中 的 进程 就 
都 会 收 到 一 个 挂 断 信号 。 因 此， 简单 的 注销 通常 会 终止 用 户 的 所 有 进程 ， 除 非 采取 特殊 措施 ， 
或 者 使 它们 成 为 后 台 进 程 ， 或 者 使 它们 免 受 挂 断 信号 的 影响 。 

总 之 ， 每 个 进程 都 有 4 个 相关 的 进程 ID 号 : 

。 进 程 ID: 能 唯一 标识 这 个 进程 的 正 整数 ， 

。 父 进程 ID: 其 父 进程 的 进程 ID， 

ARAD: 进程 组 领导 者 的 进程 ID。 如 果 和 进程 ID 相同 ， 则 该 进程 即 为 组 的 领导 者 ， 





日 “demon” 和 “daemon” 是 同一 个 单词 的 两 种 拼写 ， 但 前 者 的 意思 是 魔鬼 ， 而 后 者 的 意思 是 介 于 神 和 人 之 
间 的 一 种 超自然 的 精灵 。 行 为 不 端的 daemon 可 以 称 为 demon。 
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“会 话 领导 者 ID: 会 话 领导 者 的 进程 ID。 


1.1.5 权限 

M PID (user-ID) 是 和 password 文 件 (/etc/passwd) 中 用 户 的 登录 名 称 (login name) 
相关 联 的 一 个 正 整数 。 当 用 户 登录 后 ，1ogin 命 令 会 将 此 ID 作 为 已 创建 的 第 一 个 进程 (login 
shell) 的 用 户 ID。 其 他 进程 将 从 shell 继 承 这 个 用 户 ID。 

用 户 也 会 被 划分 到 组 (不 要 和 进程 组 混淆 ) 中 ， 这 些 组 也 会 有 ID， 称 为 组 ID (group-ID), 
用 户 的 登录 组 ID 被 当成 其 登录 外 这 (login shell) 的 组 ID。 

组 是 在 组 文件 (/etc/group) 中 定义 的 。 登 录 后 ， 用 户 可 以 转 到 他 所 素 属 的 其 他 组 中 。 这 
样 将 改变 处 理 请 求 (通常 是 shell， 通 过 newgrp 命 令 ) 的 进程 的 组 ID， 并 被 所 有 派生 进程 所 继 
承 。 由 于 一 个 用 户 可 能 是 多 个 组 的 成 员 ， 所 以 进程 也 拥有 一 个 补充 组 ID 列表 。 对 大 多 数 场合 
来 说 ， 在 进程 的 组 权限 存在 争议 的 情况 下 ， 将 会 检查 该 列表 ， 使 得 用 户 不 必 经 常 手工 转换 组 。 

这 两 个 用 户 和 组 的 登录 ID 被 称 为 实际 用 户 ID (real user-ID) 和 实际 组 ID (real group-ID)， 
因为 它们 代表 了 实际 用 户 ， 即 登录 系统 的 人 员 。 另 两 种 和 进程 相关 的 ID 是 有 效用 户 ID 
(effective user-ID) 和 有 效 组 ID (effective group-ID)， 它 们 通常 和 对 应 的 实际 ID 相同 ， 但 也 
可 能 不 同 ， 就 像 稍 后 所 看 到 的 那样 。 

有 效 ID 经 常用 于 决定 权限 ， 真 实 ID 用 于 审计 以 及 用 户 到 用 户 的 通信 。 一 个 表明 了 用 户 的 
权限 ， 另 一 个 表明 了 用 户 的 身份 。 

每 个 文件 (常规 文件 、 目 录 、 套 接 宇文 件 等 ) 的 信息 节点 中 都 具有 一 个 所 有 者 用 户 ID 
(owner user-ID) (简称 所 有 者 ) 和 一 个 所 有 者 组 ID (owner group-ID) (简称 组 )。 同 时 ,信息 
节点 中 还 包含 有 三 组 权限 位 ， 每 组 三 位 (共计 9 位 )。 每 组 包含 一 个 读 权 限 位 (read permission 
bit)、 一 个 写 权限 位 (write permission bit) 和 一 个 执行 权限 位 (execute permission bit)。 位 为 
1 时 代表 允许 权限 ， 为 0 时 代表 拒绝 权限 。 三 组 权限 中 ， 一 组 用 于 所 有 者 ， 一 组 用 于 组 ， 一 组 
用 于 其 他 用 户 (不 在 前 两 类 中 )。 表 1-1 表 明了 位 的 分 配 (位 0 是 最 右 位 )。 


表 1-1 权 限 位 








权限 位 经 常用 八进制 数 来 表示 。 例 如 ， 八 进 制 数 775 表 示 具 有 所 有 者 及 组 的 读 、 写 和 执行 
权限 ， 但 同时 只 具有 其 他 用 户 的 读 和 执行 权限 。1s 命 令 显 示 其 权限 组 合 为 rwxrwxr-x， 其 
二 进 制 表示 为 111111101， 直 接 转化 为 八进制 就 是 775。( 转 化 为 十 进 制 是 509， 但 这 种 表示 通 
常 是 没有 用 的 ， 因 为 这 几 个 数字 和 权限 位 之 间 没 有 直观 的 联系 。) 

权限 系统 能 够 决定 指定 进程 能 否 对 指定 文件 执行 某 种 预期 行为 ( 读 、 写 或 执行 )。 对 常规 
文件 来 说 ， 所 有 这 三 个 行为 的 含义 都 是 明显 的 。 对 目录 来 说 ， 读 行为 的 含义 是 明显 的 。 目 录 
的 “ 写 ” 权 限 的 含义 是 指使 用 系统 调用 来 修改 目录 (增加 或 删除 链接 ) 的 能 力 。 “执行 ”权限 
意味 着 在 路 径 中 使 用 该 目录 的 能 力 ， 有 时 又 称 为 “搜索 ”权限 。 对 特殊 文件 来 说 ， 读 和 写 权 
限 意 味 着 执行 读 或 写 系统 调用 的 能 力 。 其 具体 含义 取决 于 设备 驱动 程序 的 设计 者 。 特 殊 文件 
的 执行 权限 是 没有 任何 意义 的 。 
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权限 系统 采用 以 下 算法 来 决定 是 否 可 以 授予 某 种 权限 : 

1) 如 果 有 效用 户 ID 是 0， 则 立即 授予 权限 (有 效用 户 是 超级 用 户 ) ， 

2) 如 果 进 程 的 有 效用 户 ID 和 文件 的 用 户 ID 相符 ， 则 使 用 所 有 者 位 组 来 判断 该 行为 是 否 被 
允许 执行 ， 

3) 如 果 进 程 的 有 效 组 ID 或 一 个 补充 组 ID 和 文件 的 组 ID 相符 ， 则 用 组 权限 位 组 进行 判断 ， 

4) 如 果 与 用 户 ID 和 组 ID 都 不 符合 ， 则 进程 属于 “其 他 用 户 *， 此 时 使 用 第 三 组 权限 位 组 进 
行 判断 。 

以 上 步骤 是 按 顺 序 执行 的 ， 因 此 ， 如 果 在 步 又 3 中 访问 被 拒绝 〈 例 如 由 于 组 的 写 权 限 被 拒 
绝 ) ， 则 该 进程 不 能 执行 号， 虽然 依照 其 他 用 户 权限 (如 步骤 4) 可 能 允许 写 。 组 的 权限 比 其 
他 用 户 的 权限 更 为 严格 ， 这 种 情况 可 能 不 常见 ， 但 这 确实 是 有 效 的 方法 。( 假 设 要 给 一 组 雇员 
召开 “惊喜 聚会 ”一 一 当事人 事先 不 知道 该 聚会 ， 那 么 除 这 组 雇员 外 ， 参 加 聚会 的 其 他 人 都 
应 该 能 读 到 该 聚会 的 邀请 函 。) 

还 有 其 他 一 些 称 为 “改变 信息 节点 ”的 行为 ， 只 有 所 有 者 或 超级 用 户 可 以 进行 。 这 些 行 
为 包括 改变 文件 的 用 户 ID 或 组 ID、 改 变 文件 权限 和 改变 文件 的 访问 或 修改 时 间 。 作 为 特例 ， 
文件 的 写 权限 允许 将 其 访问 和 修改 时 间 改 为 当前 时 间 。 

有 了 时， 可 能 需要 用 户 暂 时 性 地 取得 其 他 用 户 的 特权 。 例 如 ， 当 运行 Passwd 命 令 改变 口令 
时 ， 可 能 希望 有 效用 户 ID 是 超级 用 户 ， 因 为 只 有 root 才 可 以 写 入 口令 文件 。 这 可 以 这 样 实现 ; 
将 passwd 命 令 的 所 有 者 设 为 root (超级 用 户 的 登录 名 称 ) ， 然 后 打开 passwd 命 令 的 信息 节点 
中 的 另 一 个 权限 位 ， 称 为 设置 用 户 ID (set-user-ID) 位 。 运 行 打开 此 位 的 程序 ， 会 将 进程 的 有 
效用 户 ID 改变 为 包含 该 程序 的 文件 的 所 有 者 的 用 户 ID。 由 于 是 使 用 有 效用 户 ID 而 不 是 实际 用 
户 ID 来 确定 权限 ， 所 以 这 允许 用 户 临时 取得 其 他 用 户 的 权限 。 设 置 组 ID (set-group-ID) 位 的 
使 用 与 之 相似 。 

由 于 两 种 用 户 ID (实际 用 户 ID 和 有 效用 户 ID) 都 从 父 进程 继承 到 子 进程 ， 因 此 使 用 设置 
用 户 ID 功 能 ， 可 以 在 很 长 的 时 间 内 运行 某 个 有 效用 户 ID。su 命 令 就 是 这 么 做 的 。 

这 里 存在 一 个 潜在 的 漏洞 。 假 设 进行 以 下 操作 : 将 sh 命令 文件 复制 到 用 户 自己 的 目录 
(因此 用 户 就 成 为 复制 文件 的 所 有 者 ) ， 然 后 使 用 chmod 打 开设 置 用 户 ID 位 ， 并 使 用 chown 命 
令 将 文件 的 所 有 者 改 为 root。 现 在 ， 运 行 用 户 的 sh 拷贝 ， 就 会 取得 root 的 特权 ! 幸运 的 是 ， 这 
个 漏洞 在 很 久 以 前 就 被 堵 住 了 。 如 果 不 是 超级 用 户 ， 改 变 文件 的 所 有 者 ， 会 自动 清除 设置 用 
户 ID 位 和 设置 组 ID 位 。 


1.1.6 进程 的 其 他 属性 

进程 的 系统 数据 段 中 还 记 有 其 他 几 种 有 趣 的 属性 。 

进程 打开 的 每 个 文件 (常规 文件 、 特 殊 文件 、socket 文 件 或 命名 管道 文件 ) 都 有 一 个 打开 
文件 描述 符 (file descriptor) (从 0 到 大 约 1000 的 整数 )， 而 进程 产生 的 每 个 未 命名 管道 ( 见 
1.1.7 节 ) 都 有 两 个 打开 文件 描述 符 。 子 进程 并 不 从 其 父 进程 继承 打开 文件 描述 符 ， 而 是 复制 
它们 。 虽 然 如 此 ， 它 们 都 索引 至 相同 的 全 系统 打开 文件 表 ， 再 加 上 其 他 因素 ， 可 意味 着 父 进 
程 和 子 进程 共享 相同 的 文件 偏 移 ( 下 一 次 读 或 写 的 字 节 位 置 )。 

进程 的 优先 级 由 内 核 调度 程序 使 用 。 任 何 进程 都 可 通过 系统 调用 nice 来 降低 其 优先 级 ， 
通过 相同 的 系统 调用 ， 超 级 用 户 进程 可 以 提高 其 优先 级 ( 即 ， 不 用 nice)。 从 技术 上 讲 , nice 
有 一 个 属性 叫做 nice 值 ， 该 属性 仅 有 一 个 参数 用 于 计算 实际 的 优先 级 。 

进程 的 文件 大 小 限制 可 能 会 (通常 就 是 这 样 的 ) 小 于 全 系统 的 限制 ， 这 是 为 了 防止 初学 
者 写 人 超出 其 控制 以 外 的 文件 。 超 级 用 户 进程 可 以 扩大 限制 范围 。 





在 本 书 描述 相关 系统 调用 的 部 分 中 ， 还 会 讨论 更 多 的 进程 属性 。 


1.1.7 进程 间 通信 

在 最 早期 (1980 年 以 前 ) 的 UNIX 系 统 中 ， 进 程 之 间 可 以 通过 共享 文件 偏 移 、 信 号 、 进 程 
RIK (process tracing)、 文 件 和 管道 (pipe) 进行 通信 。 后 来 ， 又 加 入 了 命名 管道 (named 
pipe) (FIFO), URS 5#, XHH (file lock)、 消 息 (message)、 共 享 存储 器 (shared 
memory) 网 络 套 接 字 。 如 同 我 们 在 本 书 中 将 要 看 到 的 那样 ， 上 述 11 种 机 制 中 ， 没 有 一 种 能 完 
全 满足 要 求 。 这 就 是 目前 存在 11 种 机 制 的 原因 ! 由 于 信号 量 、 消 息 和 共享 存储 器 都 存在 两 种 
版 本 ， 因 此 这 样 算 来 可 能 还 要 更 多 。 从 非常 古老 的 、 来 自 AT&T 的 SystemV UNIX 的 
“SYSTEM V IPC"， 到 非常 新 的 、 来 自 20 世 纪 90 年 代 初 期 成 立 的 一 个 实时 标准 团体 的 
“POSIX IPC” 系 统 ， 几 乎 每 个 版 本 的 UNIX (包括 FreeBSD 和 Linux) 都 含有 这 11 种 最 古老 的 
机 制 ， 而 主要 商业 版 本 的 UNIX (如 Sun 的 Solaris 或 HP 的 HP/UX) 则 包含 所 有 这 14 种 机 制 。 

共享 文件 偏 移 (shared file offset) 很 少 用 于 进程 间 通信 。 理 论 上 ， 如 果 一 个 进程 将 文件 偏 
移 量 定位 到 文件 的 某 个 位 置 ， 那 么 第 二 个 进程 就 可 以 找到 该 位 置 。 该 位 置 (比如 介 于 0 ~ 100 
间 的 某 个 数 ) 就 是 通信 数据 。 由 于 进程 必须 涉及 共享 文件 偏 移 量 ， 因 此 也 可 以 使 用 管道 。 

在 进程 仅 需 要 指向 其 他 进程 时 ， 有 时 使 用 们 号。 例如， 每 当 打印 文件 假 脱 机 时 ， 打 印 假 
脱 机 程序 就 向 实际 打印 进程 发 出 信和 号。 但 是 ， 对 大 多 数 应 用 程序 来 说 ， 信 和 号 不 能 传递 足够 的 
信息 。 另 外 ， 信 号 会 中 断 接收 进程 ， 与 在 接收 者 准备 好 后 再 获得 通信 的 方式 相 比 ， 其 编程 变 
得 更 为 复杂 。 信 号 的 主要 用 途 只 是 终止 进程 或 指出 异常 事件 。 

利用 进程 跟踪 ， 父 进程 可 以 控制 其 子 进程 的 运行 。 由 于 父 进程 可 以 读 写 子 进程 的 数据 ， 
所 以 两 者 可 以 自由 通信 。 进 程 跟 踪 仅 由 调试 器 使 用 ， 因 为 对 于 一 般 应 用 来 说 ， 这 过 于 复杂 并 
且 不 安全 。 

文件 是 进程 间 通 信 最 常见 的 形式 。 例 如 ， 可 以 通过 某 个 运行 vi 的 进程 写 文件 ， 然 后 通过 
另 一 个 运行 python 的 进程 运行 该 文件 。 然 而 ， 如 果 两 个 进程 是 并 发 运行 的 ， 使 用 文件 就 不 太 
方便 了 ， 原 因 有 两 个 : 首先 ， 读 进程 可 能 会 超过 写 进程 ， 当 读 到 文件 末尾 时 ， 读 进程 可 能 会 
认为 通信 已 经 结束 。( 这 可 以 通过 一 些 复杂 的 编程 进行 控制 。) 其 次 ， 两 个 进程 的 通信 越 长 ， 
文件 就 会 越 大 。 有 时 进程 间 通 信 可 能 会 持续 几 天 或 几 周 ， 传 输 几 十 亿 字 节 的 数据 ， 这 会 很 快 
耗 尽 文件 系统 。 

信号 量 使 用 空 文件 ， 也 是 一 种 传统 的 UNIX 技 术 。 它 利用 了 UNIX 系 统 创建 文件 方式 的 某 
些 特点 。 更 详细 的 内 容 见 2.4.3 节 。 

最 后 ， 提 出 以 下 建议 : 管道 解决 了 文件 的 同步 问题 。 管 道 不 是 常规 文件 ， 虽 然 它 有 信息 
节点 ， 但 不 存在 指向 它 的 链接 。 管 道 的 读 写 类 似 于 文件 的 读 写 ， 但 存在 一 些 显著 的 不 同 ， 如 
果 读 进程 超过 了 写 进程 ， 读 进程 将 被 阻 室 (停止 运行 一 会 儿 )， 直 到 有 了 更 多 的 数据 。 如 果 写 
进程 远 远 超过 了 读 进 程 ， 写 进程 将 被 阻塞 直到 读 进 程 有 机 会 赶 上 来 ， 这 样 内 核 不 会 有 太 多 的 
排队 数据 。 最 后 ， 一 旦 字 节 被 读 取 ， 它 就 永久 消失 ,因此 通过 管道 连接 的 进程 ， 长 时 间 运行 
也 不 会 填 满 文件 系统 。 

对 shell 用 户 而 言 ， 管 道 是 众所周知 的 ， 可 以 输入 如 下 的 命令 行 : 

1s | we 
来 查看 拥有 多 少 文件 。 然 而 , 正如 在 第 6 章 将 要 看 到 的 那样 ,内 核 工 具 远 比 shell 提 供 的 工具 通用 。 

但 是 ， 管 道 有 三 个 主要 的 缺点 : 第 一 ， 通 过 管道 通信 的 进程 之 间 必 须 是 相关 的 ， 典 型 的 
有 父子 关系 或 兄弟 关系 。 对 于 许多 应 用 程序 而 言 ， 这 种 约束 太 严格 了 ， 诸 如 这 样 的 应 用 程序 : 
一 个 进程 是 数据 库 管 理 器 ， 而 另 一 个 进程 是 需要 访问 数据 库 的 应 用 程序 。 第 二 个 不 足 是 ， 无 
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法 保证 超过 本 地 设置 最 大 值 (比如 4096 字 节 ) 的 写 人 的 原子 性 ， 当 存在 多 个 写 人 进程 时 ， 必 
须 禁 止 使 用 管道 ， 否 则 它们 的 数据 可 能 会 相互 混合 。 第 三 个 不 足 之 处 是 管道 可 能 会 很 慢 。 必 
须 首先 将 数据 从 写 人 用 户 进程 复制 到 内 核 ， 然 后 再 复制 到 读 进程 。 虽 然 没 有 执行 实际 的 磁盘 
VO, 但 对 某 些 关键 应 用 程序 来 说 ， 复 制 过程 本 身 花费 的 时 间 也 相当 长 。 由 于 这 些 缺点 的 存在 ， 
引入 了 空想 家 方案 (fancier scheme), 

命名 管道 ， 也 称 为 FIFO (FIFO 代 表 “ 先 进 先 出 ") ， 用 以 解决 管道 的 第 一 个 缺点 。 命 名 管 
道 作 为 特殊 文件 而 存在 ， 任 何 具有 权限 的 进程 都 可 以 打开 它 进行 读 写 。 命 名 管道 也 易于 编程 ， 
正如 将 在 第 7 章 中 所 述 的 那样 。 

命名 管道 有 什么 不 足 ? 它们 不 能 消除 管道 的 第 二 个 缺点 和 第 三 个 缺点 : 即 大 量 写 人 时 可 
能 会 发 生 交叉 存 取 ， 有 时 可 能 会 很 慢 。 对 于 大 多 数 关键 应 用 程序 ， 都 可 以 使 用 更 新 的 进程 间 
通信 特性 〈 例 如 消息 或 共享 存储 器 ) ， 但 难度 会 更 大 一 些 。 

CFE (在 计算 机 领域 中 ) 是 一 个 用 于 防止 两 个 或 更 多 的 进程 在 同一 时 间 访问 同一 资源 
的 计数 器 。 如 上 文 所 述 ， 文 件 也 可 用 作 信号 量 ， 但 对 许多 应 用 程序 来 说 其 开销 太 大 。UNIX 系 “ 
统 有 两 类 完全 不 同 的 信号 量 机 制 ， 一 类 属于 SYSTEM V IPC， 另 一 类 属于 POSIX IPC 系 统 。 
(在 1.5 节 中 将 介绍 POSIX。) 

文件 锁 ， 实 际 上 是 一 种 具有 特殊 目的 的 信号 量 ， 可 以 防止 两 个 及 两 个 以 上 的 进程 访问 文 
件 的 同一 部 分 。 通 常 只 在 进程 强制 检查 的 情况 下 有 效 ， 其 较 弱 的 形式 称 为 建议 锁 ， 较 强 的 形 
式 称 为 强制 锁 。 后 者 无 论 进程 是 否 检查 都 是 有 效 的， 但 它 并 不 是 标准 的 ， 而 且 仅 在 某 些 UNIX 
系统 中 可 用 。 

消息 是 一 种 可 以 发 送 到 信息 队列 的 少量 (如 500 字 节 ) 数据 。 消 息 可 以 是 不 同类 型 的 。 任 
何 拥有 适当 权限 的 进程 都 可 以 从 队列 中 接收 消息 。 有 多 种 选择 ， 可 以 是 第 一 条 消息 ， 也 可 以 
是 指定 类 型 的 第 一 条 消息 ， 还 可 以 是 一 组 类 型 的 第 一 条 消息 。 和 信号 量 一 样 ， 也 存在 
SYSTEM V IPC 消 息 系统 调用 和 完全 不 同 的 POSIX IPC 系 统 调用 。 

共享 存储 器 潜在 地 提供 了 最 快 的 进程 间 通信 。 可 将 同一 存储 器 映射 到 两 个 或 两 个 以 上 进 
程 的 地 址 空间 中 。 一 旦 数据 被 写 人 了 共享 存储 器 ， 就 可 立即 被 读 取 。 可 用 信号 量 或 消息 来 同 
步 读 进程 和 写 进程 。 确 切 地 说 ， 共 享 存储 器 存在 两 种 版 本 ， 细 心 的 读者 可 以 猜 出 来 是 哪 两 种 。 

最 后 也 是 最 好 的 一 种 方法 是 : 使 用 一 组 称 为 套 接 字 的 系统 调用 (该 组 中 的 其 他 系统 调用 
的 名 称 分 别 为 Dind、connect 和 accept) 的 网 络 进 程 间 通 信 。 和 上 文 提 到 的 其 他 机 制 不 同 ， 
通过 socket 通 信 的 进程 不 必 运 行 在 同一 台 机 器 中 。 它 可 以 在 另 一 台 机 器 上 ， 或 者 局 域 网 或 
Internet 的 什么 地 方 。 另 一 台 机 器 甚至 不 必 运 行 UNIX， 可 以 运行 Windows 或 其 他 操作 系统 。 在 
某 种 意义 上 ， 它 甚至 可 以 是 一 台 网 络 打印 机 或 无 线 设备 。 

为 某 个 特定 的 应 用 程序 选择 IPC 机 制 不 是 件 容易 的 事 ， 因 此 在 第 7 章 和 第 8 章 中 ， 花 费 了 大 
县 篇 幅 对 它们 进行 了 比较 。 


1.2 UNIX 的 版 本 


1969 年 ， 在 AT&T 贝 尔 实验 室 ，Ken Thompson 和 Dennis Ritchie 开 始 将 UNIX 作 为 一 个 研究 
项 目 ， 此 后 很 快 在 AT&T 的 内 部 系统 (如 自动 电话 修理 呼叫 中 心 ) 中 得 到 广泛 使 用 。 那 时 ， 
AT&T 还 未 开展 商业 计算 机 生产 或 商业 软件 销售 的 业务 ， 但 在 20 世 纪 70 年 代 早期 ， 它 将 UNIX 
提供 给 一 些 大 学 用 于 教学 目的 ， 其 源 代码 仅 透露 给 那些 持 有 其 许可 的 其 他 大 学 。 到 了 70 年 代 
末期 ，AT&T 也 开始 将 源 代码 许可 给 商业 销售 者 。 

许多 (如 果 不 是 绝 大 多 数 ) 获得 许可 者 自己 对 UNIX 进 行 了 改进 ， 以 使 其 能 够 适应 新 的 硬 
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件 、 加 入 设备 驱动 或 仅仅 是 对 其 进行 调整 。 其 中 有 两 个 改进 可 能 称 得 上 是 最 重大 的 改变 ， 它 
们 都 来 自 加 州 大 学 伯克利 (Berkeley) 分 校 : 网 络 系统 调用 (“socket”) 和 对 虚拟 存储 器 的 支 
持 。 结 果 是 ， 遍 及 全 世界 的 大 学 和 研究 工作 实验 室 都 使 用 BSD 系 统 ， 加 州 大 学 伯克利 分 校 软 
件 (Berkeley Software Distribution，BSD) ， 即 使 它们 仍然 要 从 AT&T 获 得 许可 。 一 些 商业 销 
售 者 ， 如 知名 的 Sun Microsystems， 同 样 是 从 BSD UNIX 开 始 的 。Sun 的 创办 者 之 一 ，Bill Joy, 
就 曾 是 一 位 BSD 的 主要 开发 者 。 

贝尔 实验 室 同样 在 继续 开发 工作 ， 到 80 年 代 中 期 ， 两 个 系统 已 经 岔 开 很 远 了 。{(AT&T 的 
系统 那 时 称 为 系统 V。) 二 者 都 支持 虚拟 存储 器 ， 但 其 网 络 系统 调用 已 经 完全 不 同 了 。 系 统 Y 
的 进程 间 通 信 设 施 (消息 、 共 享 存储 器 和 信号 量 ) 是 由 BSD 系 统 以 不 同 的 方式 实现 的 ，BSD 
除 几乎 改变 了 所 有 的 命令 外 ， 还 添加 了 许多 命令 ， 其 中 以 vi 最 为 著名 。 

另外 ， 还 有 大 量 其 他 的 UNIX 变 体 ， 包 括 少 许 使 用 未 经 AT&T 许 可 的 源 代码 的 克隆 产品 。 
但 是 ， 大 多 数 UNIX 世 界 都 可 以 划分 为 两 大 阵营 ， 即 BSD 和 系统 VY。 前 者 几乎 包括 了 所 有 的 学 
术 界 和 一 些 重要 的 工作 站 制造 者 ， 后 者 则 包括 了 AT&T 自 己 和 一 些 商业 销售 者 。 几 乎 所 有 的 计 
算 机 科学 专业 的 学 生 都 学 习 BSD 系 统 。( 当 他 们 来 到 贝尔 实验 室 时 ， 他 们 带 来 了 自己 喜爱 的 命 
令 和 所 有 的 UNIX 知 识 。) 令 人 啼笑 皆 非 的 是 ， 无 论 AT&T 还 是 加 州 大 学 ， 事 实 上 都 不 想 介 入 商 
业 软 件 的 业务 ! 〈AT&T 是 这 么 说 的 ， 但 事实 并 非 如 此 。) 

电气 和 电子 工程 师 协会 (Institute of Electrical and Electronics Engineers, IEEE) 在 20 世 纪 
80 年 代 中 期 开始 尝试 对 两 种 UNIX 系 统 调用 及 命令 进行 标准 化 ， 继 续 接手 过 去 称 为 /usr/group 的 
工业 团体 遗留 的 工作 。1988 年 IEEE 发 布 了 它 的 第 一 个 系统 调用 标准 ， 其 官方 名 称 为 IEEE Std 
1003.1-1988， 本 书 缩写 为 POSIX1988。9 第 一 个 命令 (如 vi 和 grep) 标准 颁布 于 1992 年 
(IEEE Std 1003.2-1992)。 在 经 过 少 景 修正 后 ，POSIX1988 被 国际 标准 化 组 织 (International 
Organization for Standardization, ISO) 采用 ， 作 为 国际 标准 ， 称 为 POSIX1990。 

上 述 标准 仅 对 应 用 程序 接口 (Application Program Interface, API) 的 语法 和 语义 进行 了 
标准 化 ， 并 不 涉及 底层 实现 。 因 此 ， 无 论 其 原始 结构 或 内 部 结构 如 何 ， 任 何 具 有 足够 功能 性 
的 系统 都 能 够 遵从 POSIX1990 或 者 它 的 后 续 标 准 ， 甚 至 像 Microsoft Windows 或 Digital (现在 
的 HP) 的 VMS 之 类 的 系统 同样 可 以 做 到 。 如 果 应 用 程序 遵守 操作 系统 API 标 准 和 编写 语言 
(如 C++) 的 标准 ， 同 时 其 目标 系统 也 遵从 相关 标准 ， 那 么 应 用 程序 的 源 代码 就 能 够 移植 ， 无 
需 改 变 就 可 以 编译 和 运行 。 在 实际 中 ， 应 用 程序 、 编 译 器 和 操作 系统 中 都 存在 bug， 而 且 几 平 
每 个 严谨 的 应 用 程序 都 不 得 不 使 用 某 些 非 标 准 的 API， 因 此, 进行 移植 时 确实 需要 做 一 些 工作 。 
遵从 标准 ， 可 以 将 移植 工作 量 减少 到 易于 处 理 的 程度 ， 和 应 用 标准 前 相 比 要 容易 得 多 。 

POSIX1990 固 然 是 一 种 极 大 的 成 就 ， 但 还 不 足以 统一 系统 V 和 BSD 阵 营 ， 因 为 它 不 包含 重 
要 的 API， 比 如 BSD socket 和 系统 V 中 的 消息 、 信 号 量 和 共享 存储 器 。 同 样 ， 为 了 UNIX 的 新 
应 用 程序 ,甚至 有 更 新 的 API 仍 不 断 地 被 引入 ， 主 要 有 实时 程序 (和 真实 世界 交互 的 应 用 程序 ， 
如 汽车 引擎 管理 ) 和 线程 。 幸 运 的 是 ，IEEE 也 包含 为 实时 和 线程 工作 的 标准 工作 组 (1.5 节 详 
述 了 POSIX1990 之 后 的 标准 )。 

在 1987 年 ，AT&T 和 SUN (使 用 了 BSD 派 生 的 UNIX) 认为 它们 能 够 通过 共同 开发 一 个 新 
系统 来 统一 UNIX 的 两 个 主要 版 本 。 这 震动 了 业界 的 其 他 公司 ， 它 们 建立 了 开放 软件 基金 会 
(Open Software Foundation，OSF)， 并 最 终 制作 出 了 它们 自己 的 UNIX 版 本 (然而 仍然 包含 
AT&T 的 许可 代码 )。 因 此 ， 在 20 世 纪 90 年 代 早期 ， 存 在 有 BSD、AT&T/Sun UNIX, pre-OSF 
UNIX 版 本 以 及 OSF 版 本 。 


© POSIX#Portable Operating System Interface 的 缩写 ， 其 发 音 是 pahz-icks。 
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当 Microsoft Windows 一 统 天 下 的 时 候 ，UNIX 却 好 像 是 起 了 内 讶 。 由 于 X/Open 公 司 在 将 
重要 的 API 收 录 进 标准 方面 比 IEEE 更 为 积极 ， 这 促使 业界 都 支持 该 公司 。 在 其 最 新 的 标准 中 ， 
居然 定义 了 1108 条 功能 接口 ! 

到 20 世 纪 90 年 代 中 期 ， 所 有 的 事情 都 慢 慢 开 始 趋 于 稳定 ， 就 在 这 时 ，Linux 出 现 了 。1991 
年 在 Usenet 的 新 闻 组 中 ， 悄 悄 出 现 了 一 个 名 为 “Free minix-like® kernel sources for 386-AT” 
的 帖子 ， 张 贴 者 是 一 位 名 叫 Linus Torvalds 的 研究 生 。 帖 子 的 开头 是 这 样 的 : 

你 渴望 使 用 minix-1.1 的 那些 好 日 子 吗 ? 那个 人 们 自己 写 设备 驱动 的 年 代 ? 你 手 

头 是 否 没有 好 的 项 目 ， 因 而 极度 渴望 想 开始 学 习 一 种 可 以 自由 修改 以 满足 自己 需要 

的 操作 系统 ? 当 你 发 现 一 切 者 工作 在 minix 之 上 时 会 不 会 非常 刘 塌 ?你 想 不 用 再 整 夜 

不 眠 就 能 获得 一 个 工作 得 很 漂亮 的 程序 吗 ? 那 么 ， 这 个 帖子 就 是 为 你 预备 的 :-) 

正如 我 一 个 月 (?) 前 提 到 的 ， 我 一 直 在 为 AT-386 计 算 机 开发 一 种 类 似 minix 的 自 

由 版 本 而 工作 。 这 项 工作 终于 到 了 可 以 使 用 (虽然 可 能 和 你 想 要 的 还 不 术 一 样 ) 的 

阶段 ， 我 想 公开 其 源 代码 ， 使 之 可 以 得 到 更 广泛 的 传播 。 它 目前 的 版 本 仅 为 0.02 [+1 

因为 已 经 打 了 (很 少量 的 ) 补丁 ] ， 但 是 在 其 上 本 人 已 成 功 运行 了 bash/gcc/gnu- 

make/gnu-sed/compress ¥ , 9 

到 20 世 纪 90 年 代 末 ，Linux 已 经 发 展 成 为 一 个 严肃 的 操作 系统 ， 在 很 大 程度 上 ， 这 要 感谢 
数 百 名 开发 者 在 其 自由 和 开放 的 源 代 码 上 付出 的 辛勤 工作 。 目 前 已 经 有 了 基于 Intel 的 PC 机 的 
Linux 二 进 制 发 行 版 的 商业 销售 商 (如 Red Hat、SuSE 和 Mandrake) ， 以 及 装配 Linux 计 算 机 的 
硬件 制造 商 〈 如 Dell、IBM 甚 至 Sun) 。 他 们 都 按照 Linux 许 可 的 要 求 提供 源 代 码 ， 这 和 AT&T 
的 许可 完全 相反 ! 

在 此 期 间 ， 虽 然 伯克利 的 程序 员 已 经 对 内 核 进行 了 15 年 的 大 量 改变 ， 但 是 他 们 开发 的 系 
统 中 仍然 包含 有 AT&T 的 许可 代码 。 他 们 开始 移 去 AT&T 的 代码 ， 但 在 完成 之 前 就 用 完了 经 费 。 
在 20 世 纪 90 年 代 早期 ， 他 们 发 布 了 一 个 虽 不 完整 但 已 不 包含 AT&T 许 可 代码 的 系统 ， 称 为 
4.4BSD-Lite。( 如 果 他 们 早点 完成 这 项 工作 ，Torvalds 就 会 从 它 而 不 是 Minix 开 始 了 。) 马上 就 
有 几 个 团体 开始 进行 充实 4.4BSD-Lite 的 工作 ， 这 些 工作 成 就 了 今天 的 FreeBSD (为 Intel CPU 
或 少量 其 他 处 理 器 而 设计 的 ) NetBSD/OpenBSD (可 移植 的 )、WinRiver 的 BSD/OS (商业 支 
持 的 ) 和 Darwin (Mac OS X 中 的 UNIX)。 唉 ， 伯 克利 小 组 已 经 不 在 其 中 了 。 

到 今天 ，UNIX 系 统 有 以 下 三 种 主要 的 变种 : 

。 商 业 的 、 非 开放 的 系统 ， 其 历史 基于 AT&T 的 SYSTEM V 或 BSD (Solaris, HP/UX, 

AIX 等 ) ， 

。 基 于 BSD 的 系统 ， 其 中 FreeBSD 最 为 著名 ，Darwin 的 知名 度 迅速 增长 ， 

+ Linux, 

它们 中 哪 一 种 才 是 “UNIX” 呢 ? 拥有 UNIX 商 标的 AT&T 的 UNIX 开 发 组 织 ， 已 经 在 1993 
年 卖 给 了 Novell。Novell 又 马上 把 UNIX 商 标 转 给 了 X/Open。1996 年 ，OSF 和 X/Open 合并 ,成 
立 了 Open Group。 该 团体 目前 开发 了 一 个 易于 理解 的 、 称 为 Single UNIX Specification 
[SUS2002] 的 标准 。 只 要 系统 满足 Open Group 的 要 求 ， 任 何 系统 都 可 以 合法 地 使 用 “UNIX” 
商标 。 主 要 的 硬件 销售 商都 拥有 带 UNIX 商 标的 系统 一 一 甚至 连 IBM 的 大 型 机 MVS (RERA 
OS/390) 都 带 有 UNIX 商 标 。 但 是 ， 开 源 系统 Linux 和 FreeBSD 都 没有 该 商标 ， 即 使 它们 声称 遵 


日 Minix 是 阿姆斯特丹 自由 大 学 的 Andrew Tanenbaum 开 发 的 一 个 小 的 指令 0S， 第 一 次 发 行 是 在 1987 年 。 它 不 


使 用 AT&T 代 码 。 
© 原始 消息 和 1981 年 以 来 其 他 7 亿 Usenet 消 息 都 被 归档 在 Google Group 中 了 (www.google.con/grphp)。 
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循 了 某 种 POSIX 标 准 。 方 便 起 见 ， 可 以 把 它们 叫做 “类 UNIX” 系 统 。 


1.3 使 用 系统 调用 
本 节 将 解释 如 何 利用 C 或 其 他 语言 来 使 用 系统 调用 ， 并 对 其 正确 用 法 提出 了 一 些 建议 。 


1.3.1 C (和 C++) He 

C 或 C++ 程序 员 实际 上 是 怎样 使 用 某 个 系统 调用 的 ? 答案 是 : 就 和 任何 其 他 函数 调用 一 样 。 
例如 ， 可 采用 如 下 方式 调用 read: 

amt = read(fd, buf, numbyte); 

函数 read 的 实现 和 UNIX 实 现 不 同 。 通 常 ， 它 是 小 型 函数 ， 通 过 运行 某 些 特定 代码 ， 它 
可 以 将 控制 从 用 户 进 程 转换 到 内 核 ， 然 后 返回 结果 。 实 际 工作 是 在 内 核 中 完成 的 ， 这 就 是 它 
叫做 系统 调用 而 不 是 库 程序 的 原因 ， 后 者 仅 在 用 户 空间 完成 全 部 工作 ， 如 qsort 或 strlen。 

然而 请 记 住 ， 由 于 系统 调用 涉及 了 两 次 上 下 文 转换 (从 用 户 到 内 核 再 转 回 来 )， 所 以 和 进 
程 自身 地 址 空间 内 的 简单 函数 调用 相 比 ， 其 花费 的 时 间 更 长 。 因 此 ， 应 该 避免 过 多 地 使 用 系 
统 调用 。 在 2.12 节 中 ， 当 我 们 探究 缓冲 UO 时 ， 还 会 强调 这 一 点 。 

每 个 系统 调用 都 需要 在 头 文件 中 进行 定义 ， 在 执行 调用 前 ， 必 须 确保 已 包含 了 正确 的 头 文 
E (有 时 需要 包含 一 个 以 上 的 文件 )。 例 如 ， 调 用 read 需 要 包含 头 文件 unistdh， 形 式 如 下 ， 

#include <unistd.h> 

通常 ， 在 一 个 头 文件 中 ， 会 对 多 个 系统 调用 进行 定义 〈 头 文件 unistd.h 中 定义 了 约 80 个 )， 
因此 ， 对 于 典型 的 程序 来 说 ， 仅 需要 包含 几 个 头 文件 即 可 。 即 便 程序 中 还 含有 大 量 的 标准 Ce 
函数 (例如 string.h)， 其 数量 仍然 易于 处 理 。 将 实际 上 不 需要 的 头 文件 包含 在 内 并 不 会 带 来 害 
处 ， 因 此 可 将 最 常用 的 头 文件 收集 起 来 包含 到 一 个 主 控 头 文件 中 ， 以 后 仅 需 包含 该 文件 即 可 。 
本 书 的 主 控 头 文件 ， 是 1.6 节 中 提出 的 defs.h。 在 本 书 的 示例 代码 中 ， 虽 然 没有 列 出 包含 该 头 
文件 的 语句 ， 但 读者 应 假定 它 被 包含 在 了 本 书 的 每 个 C 文 件 中 。 

很 不 幸 ， 由 于 各 种 标准 中 存在 的 多 义 性 或 实现 者 方面 的 错误 理解 ， 可 能 会 造成 头 文件 冲 
突 ， 所 以 ， 有 时 会 需要 变换 包含 的 顺序 或 对 C 预 处 理 程序 使 些 技巧 ， 以 便 能 够 全 部 正常 输出 。 
虽然 你 能 在 defs.h 中 看 出 一 点 儿 这 样 的 情况 ， 但 无 论 如 何 你 都 察觉 不 到 包含 在 代码 中 的 一 些 奇 
特 的 事情 。 

对 于 给 定 的 功能 ， 是 应 该 采用 系统 调用 来 实现 ， 还 是 应 该 采用 库 函 数 来 实现 ， 并 没有 什 
么 标准 。 因 此 ， 在 本 书 介 绍 或 在 例子 程序 中 展示 所 使 用 的 某 种 实现 时 ， 并 不 特意 区 分 二 者 。 
同时 ， 请 不 要 过 分 严格 地 按照 字面 意思 来 理解 本 书 中 对 术语 “系统 调用 ”的 使 用 ， 它 仅 意 味 
着 该 功能 通常 采用 这 种 实现 方式 。 


13.2 其 他 语言 绑 定 

虽然 主要 的 UNIX 标 准 文档 (POSIX 和 SUS) 是 用 C 来 描述 接口 的 ， 但 系统 开发 者 考虑 到 C 
只 是 许多 程序 设计 语言 中 的 一 种 ， 所 以 他 们 也 定义 了 其 他 标准 化 语言 (如 Fortran 和 Ada) 的 绑 
定 。 像 read 这 样 的 简单 函数 是 没有 问题 的 ， 只 要 程序 设计 语言 中 提供 了 传递 整数 和 缓冲 区 地 
址 以 及 返回 整数 的 方法 即 可 ， 对 此 ， 大 多 数 程序 设计 语言 都 可 以 办 到 (但 对 Fortran 来 说 是 一 


O 本 书 所 说 的 标准 C 是 指 : 1989 年 制定 的 最 初 标准 、1995 年 进行 了 更 新 的 版 本 或 者 称 作 C99 的 最 新 版 本 。 当 特 
指 C99 时 ， 会 专门 指出 。 
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种 挑战 )。 处 理 结构 (如 stat 使 用 的 ) 和 链表 (如 getaddrinfo 使 用 的 ) 会 更 困难 一 些 。 尽 
管 如 此 ， 语 言 专家 通常 还 是 能 够 找到 办 法 。S 

许多 语言 ， 如 Java、Perl 和 Python， 都 具有 可 以 支持 某 些 POSIX 功 能 的 标准 功能 。 例 如 ， 
这 里 有 一 个 Python 程序 ， 它 使 用 了 UNIX 系 统 调用 fork 来 创建 子 进程 。( 本 书 将 在 第 5 章 介绍 
fork, 现在 只 需要 知道 : 它 可 以 创建 子 进程 ， 然 后 用 不 同 的 值 返回 子 进程 和 父 进程 ， 因 此 if 
和 el1se 为 真 时 ， 分 别 代表 在 父 进程 和 子 进程 中 。) 


import os 
pid = os.fork() 
if pid == 0: 

print ‘Parent says, “HELLO!*’ 
else: 

print ‘Child says, "hello!"' 


输出 如 下 : 


Parent says, "HELLO!" 
Child says, "hello!" 


在 本 书 中 ， 除 了 附录 C， 不 再 举 更 多 的 使 用 C 和 C++ 以 外 语言 的 例子 。 在 附录 C 中 将 介绍 
- 些 使 用 Java 和 Jython (Python 的 一 种 运行 于 Java 环 境 的 版 本 ) 的 例子 。 


1.3.3 库 函 数 调 用 指南 


以 下 是 一 些 调用 库 函 数 〔C 或 C++) 的 一 般 性 指南 ， 可 应 用 于 系统 调用 或 其 他 任意 函数 ， 

“包含 必需 的 头 文件 (如 上 文 所 述 ) 。 

* 一定 要 知道 函数 指示 错误 和 检查 错误 的 方法 ， 除 非 有 足够 的 理由 ( 见 1.4 节 )， 否 则 请 对 

错误 进行 检查 。 如 果 不 想 检查 ， 则 请 将 返回 值 设 为 void， 如 下 所 示 : 

(void) close (fd); 

printf 一 贯 违反 该 指南 ， 但 是 下 面 的 例子 程序 中 还 有 少量 的 其 他 例外 。 

* 除非 绝对 必需 ， 和 否则 请 不 要 使 用 cast， 因 为 它们 可 能 会 隐 含 错误 。 应 当 避 免 以 下 做 法 ， 

ome 

free( (void *)p); /* gratuitous cast */ 

问题 在 于 ， 如 果 你 将 p 误 写 为 n， 那 么 cast 将 会 掩盖 一 条 编译 器 警告 。 当 函数 原型 指定 为 
void * 了 时， 不 需要 使 用 cast。 如 果 不 能 肯定 要 使 用 的 类 型 是 否 是 正确 的 ,那么 请 不 要 使 用 cast， 
这 样 编译 器 就 可 以 告诉 你 了 。 这 可 应 用 于 这 样 的 情况 : 诸如 某 函 数 要 调用 int 时 ， 你 想 提供 
给 它 的 却 是 pid_t (进程 ID 的 类 型 )。 当 存在 编译 警告 时 ， 得 到 警告 通知 总 比 没有 警告 要 好 得 
多 。 如 果 确 实 获得 了 警告 ， 并 且 已 经 确定 cast 是 唯一 的 解决 办 法 ， 那 时 就 可 以 使 用 cast 了 。 

， 如 果 获 得 了 超过 一 个 的 线程 ， 请 弄 清楚 要 调用 的 函数 是 否 是 线程 安全 的 。 也 就 是 说 ， 是 

否 能 正确 处 理 多 线程 程序 的 全 局 变量 、 互 斥 体 (信号 量 ) 以 及 信号 等 。 有 许多 函数 是 不 

行 的 。 

“尽量 写 人 标准 接口 而 不 是 特定 的 系统 , 这 会 带 来 许多 好 处 : 代码 会 具有 更 强 的 可 移植 性 ， 

标准 化 的 功能 性 可 能 通过 了 更 全 面 的 测试 ， 其 他 程序 员 理解 起 来 可 能 会 更 加 容易 ， 代 码 

可 能 会 和 下 一 版 本 的 操作 系统 更 兼容 。 实 际 上 ， 所 能 做 的 只 是 维持 一 个 对 Open Group 

Web 站 点 ( 见 1.9 节 并 参阅 [SUS2002]) 开放 的 浏览 器 窗口 ， 该 站 点 有 一 个 非常 好 的 按 字 


© 例如 ， 附 录 C 描 述 的 Jtux 是 Java Native InterfaceUND 的 扩展 应 用 。 


14 FILE 





母 排 序 的 所 有 标准 函数 (包括 标准 C 库 ) 和 所 有 头 文件 的 列表 。 这 种 方法 比 在 本 地 UNIX 
系统 中 使 用 联机 资料 更 好 。 当 然 ， 有 时 确实 需要 为 你 的 系统 寻找 特例 ， 偶 尔 还 需要 使 用 
某 些 不 标准 的 东西 。 但 是 请 把 这 些 看 作 某 种 特例 而 不 要 将 其 视 为 规则 ， 并 用 注释 来 标明 
一 一 它 是 不 标准 的 〈 这 里 所 说 的 “标准 ”将 在 1.5 节 中 详细 一 述 ) 。 


1.3.4 函数 对 照 表 


本 节 将 对 每 个 系统 调用 或 函数 进行 正式 介绍 。 每 个 介绍 都 包括 一 个 简单 的 、 包 含 必需 的 
头 文件 、 和 参数 和 错误 报告 方法 的 对 照 表 。 以 下 是 关于 一 个 标准 C 函 数 atexit 的 例子 。 该 函数 


将 在 1.4.2 节 中 使 用 : 
atexit 一 一 当 进程 退出 时 注册 已 调用 的 函数 


#include <stdlib.h> 


int atexit( 
void (*fcn) (void) /* function to be called */ 


yi 
/* Returns 0 on success, non-zero on error (errno not defined) */ 





(如 果 对 errno 还 不 熟悉 ， 可 以 在 下 一 节 中 找到 相关 讲解 。) 
atexit 的 工作 方式 是 ， 首 先进 行 函数 声明 : 


static void fcn(void) 


( 


/* work to be done at exit goes here */ 
} 


然后 进行 注册 : 


if (atexit(fen) != 0) { 
/* handle error */ 
J 


这 时 ， 当 进程 退出 时 ， 会 自动 调用 该 函数 。 可 以 注册 1 个 以 上 的 函数 〈 最 多 32 个 ) ， 它 们 将 按 
照 和 注册 相反 的 顺序 依次 被 调用 。 请 注意 ， 正 如 对 照 表 中 所 述 ， 在 if 语句 中 测试 的 是 非 零 值 ， 
它 不 测试 1、 比 零 大 的 值 、-1、false、NULIL 或 其 他 什么 值 。 这 是 唯一 能 安全 完成 任务 的 方 
式 。 此 外 ， 这 使 得 日 后 进行 bug 查 找 和 试图 比较 文档 与 代码 的 工作 更 为 容易 。 比 较 二 者 时 ， 不 
必 费 丝毫 脑力 。 


1.4 错误 处 理 


对 从 系统 调用 中 返回 的 错误 进行 测试 需要 一 定 技巧 ， 发 现 错误 后 处 理 错误 更 具有 技巧 性 。 
本 节 将 解释 该 问题 并 给 出 一 些 实用 的 解决 方案 。 


1.4.1 错误 检测 

大 多 数 系统 调用 都 会 返回 值 。 在 read 的 例子 中 ( 见 1.3.1 节 ) ， 返 回 的 是 已 读 取 的 字 节 数 。 
为 了 表示 错误 ， 系 统 调用 通常 会 返回 一 个 不 会 和 有 效 数据 混淆 的 数值 ， 以 -1 最 为 常见 。 因 此 ， 
该 例 的 编码 应 当 进 行 如 下 修改 : 


if ((amt = read(fd, buf, numbyte)) == -1) { 
fprintf(stderr, "Read failed!\n"); 
exit (EXIT_FAILURE) ; 
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请 注意 exit 也 是 一 个 系统 调用 ， 但 它 不 返回 错误 ， 因 为 它 不 执行 返回 操作 。 符 号 
EXIT_FAILURE 是 属于 标准 C 的 。 

在 本 书 所 涵盖 的 系统 调用 中 ， 大 约 有 60% 在 发 生 错误 时 返回 -1，20% 返 回 其 他 值 ， 如 
NULL、0 或 类 似 SIG_ERR 的 特定 符号 ， 还 有 20% 根 本 不 报告 错误 。 因 此 ， 不 应 假定 它们 都 是 
按照 相同 方式 工作 的 ， 必 须 阅读 每 一 个 系统 调用 的 文档 。 在 本 书 介绍 每 个 系统 调用 时 ， 会 提 
供 此 类 信息 。 

返回 错误 指示 系统 调用 失败 的 原因 有 很 多 种 。 其 中 80% 的 情况 下 ， 整 数 符号 errno 包 含 
的 代码 可 以 指明 原因 。 要 得 到 errno， 应 包含 头 文件 errno.h。 虽 然 errno 不 一 定 非 是 个 整数 
变量 ， 但 可 像 整数 那样 使 用 它 。 如 果 使 用 线程 ， 那 么 errno 用 起 来 会 像 函 数 调用 ， 因 为 不 同 
的 线程 不 可 能 全 部 都 能 可 靠 地 使 用 同一 个 全 局 变量 。 因 此 ， 不 要 自己 声明 errno (这 可 能 是 
你 正 打算 要 做 的 ) ， 而 应 使 用 头 文件 中 的 定义 ， 如 下 所 示 (未 显示 其 他 头 文件 ) ; 

#include <errno.h> 

if ((amt = read(fd, buf, numbyte)) == -1) { 

fprintf(stderr, “Read failed! errno = %d\n", errno); 
exit (EXIT_FAILURE) ; 

) 

如 果 文件 描述 符 错误 ， 其 输出 应 为 

Read failed! errno = 9 

通常 情况 下 ， 仅 在 首先 执行 了 错误 检测 的 前 提 下 ， 才 可 使 用 errno 的 值 ， 不 能 仅 检测 
errno 查 看 是 否 发 生 了 错误 。 因 为 ， 只 有 函数 被 专门 用 来 返回 错误 的 时 候 才 会 设 定 errno 的 
值 。 因 此 ， 以 下 代码 是 错误 的 : 

amt = read(fd, buf, numbyte); 

if (errno != 0) { /* wrong! */ 

fprintf(stderr, "Read failed! errno = %d\n", errno); 
exit (EXIT_FAILURE) ; 

} 

可 以 在 使 用 errno 之 前 ， 将 它 的 值 设 为 0: 


errno = 0; 

amt = read(fd, buf, numbyte); 

if (errno != 0) { /* bad! */ 
fprintf (stderr, "Read failed! errno = d\n", errno); 
exit (EXIT_FAILURE) ; 

J 


但 这 依然 不 是 一 个 好 方法 ， 因 为 : 

。 如 果 以 后 要 修改 代码 ， 想 在 调用 read 之 前 加 入 其 他 系统 调用 ， 或 加 入 其 他 最 后 会 执行 

系统 调用 的 函数 时 ，errno 的 值 可 能 会 被 那个 调用 所 设 定 。 

。 不 是 所 有 的 系统 调用 都 会 设置 errno 的 值 ， 应 该 养 成 严格 遵循 函数 规范 来 检查 错误 的 习惯 。 
因此 ， 对 几乎 所 有 系统 调用 来 说 ， 都 只 能 在 已 经 确认 错误 发 生 之 后 ， 再 检查 errno。 

上 面 已 经 对 单独 使 用 errno 检 查 错误 进行 了 警告 。 对 于 UNIX 来 说 ， 必 须 说 还 存在 少量 确 
实 要 依靠 改变 的 errno 值 来 表示 错误 的 特例 (如 sysconf 和 readdir)， 但 就 连 它们 也 会 返 
回 一 个 特定 的 值 ， 告 诉 人 们 去 检查 errno。 因 此 ， 一 个 不 错 的 规则 是 在 检查 返回 值 之 前 不 要 
检查 errno， 这 条 规则 对 于 大 多 数 例外 情况 也 适用 。 

errno 取 值 为 9 时 ， 并 不 是 标准 化 的 ， 只 会 显示 一 些 没 有 多 少 意义 的 段落 。 因 此 最 好 使 用 
标准 C 函 数 perror， 如 下 所 示 : 
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if ((amt = read(fd, buf, numbyte)) == -1) ( 
perror("Read failed!"); 
exit (EXIT_FAILURE) ; 

t 

现在 的 输出 是 : 


Read failed!: Bad file number 
另 一 个 有 用 的 标准 C 函 数 是 strerror， 它 不 像 Perror 那 样 显示 信息 ， 而 仅 提供 一 个 字 


符 串 信息 。 
但 是 ， 虽 然 消息 “Bad file number” 足够 清晰 ， 但 同样 不 是 标准 化 的 ， 因 此 仍然 存在 问题 : 


在 系统 调用 及 其 他 使 用 errno 的 函数 的 官方 文档 中 ， 当 谈 及 各 种 错误 时 ， 使 用 的 是 EBADF 之 
类 的 符号 引用 ， 而 不 是 文本 消息 。 例 如 ， 以 下 是 摘自 SUS 的 有 关 read 的 条 目 : 

[EAGAIN] 

为 文件 描述 符 设 置 O_ NONBLOCK 标 志 ， 同 时 进程 将 被 延迟 。 

[EBADF] 

fildes 参 数 不 是 为 读 操作 打开 的 、 有 效 的 文件 描述 符 。 

[EBADMSG] 

文件 是 一 个 流 (STREAM) 文件 ， 它 被 设置 成 一 般 控制 模式 ， 并 且 等 待 读 取 的 消息 包含 


一 个 控制 部 分 。 

尽管 文本 中 没有 显示 出 那些 确切 的 词语 ， 但 “Bad file number” 与 BBADF 是 直接 匹配 的 ， 然 
而 对 于 那些 更 为 模糊 的 错误 来 说 就 不 是 这 样 了 。 我 们 真正 想 要 和 文本 信息 一 同 得 到 的 是 实际 的 
符号 ， 但 并 不 存在 提供 这 种 信息 的 标准 C 或 SUS 函 数 。 因 此 ， 可 以 自己 编写 能 将 号 码 翻 译 成 符号 
的 函数 。 因 为 许多 符号 是 和 具体 系统 相关 的 ， 因 此 本 书 在 根据 Linux、Solaris 和 BSD 的 ermoh 文 
件 得 来 的 代码 中 建立 了 符号 列表 。 对 于 读者 所 用 的 系统 而 言 可 能 必须 调整 这 个 代码 。 篇 幅 所 限 ， 
这 里 没有 列 出 所 有 的 符号 ， 但 可 以 从 AUP 网 站 获得 全 部 代码 ( 见 1.8 节 并 参阅 [AUP2003])。 


static struct { 
int code; 
char *str; 

} errcodes(] = 

{ 
{ EPERM, "EPERM" }, 
{ ENOENT, "ENOENT" }, 


{ EINPROGRESS, “EINPROGRESS" }, 
{ ESTALE, "ESTALE" }, 
#ifndef BSD 
{ ECHRNG, "ECHRNG" }, 
{ EL2NSYNC, “EL2NSYNC* }, 


{ ESTRPIPE, "ESTRPIPE* }, 

{ EDQUOT, “EDQUOT* }, 
#ifndef SOLARIS 

{ EDOTDOT, “EDOTDOT* }, 

{ EUCLEAN, "EUCLEAN" }, 


{ ENOMEDIUM, "ENOMEDIUM" }, 

{ EMEDIUMTYPE, "EMEDIUMTYPE" }, 
#endif 
#endif 

{ 0, NULL} 
ye 
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const char *errsymbol (int errno_arg) 
{ 
int i; 


for (i = 0; errcodes{i].str != NULL; i++) 
if (errcodes[i].code == errno_arg) 
return errcodes[i].str; 
return *(UnknownSymbol}"; 





) 
下 面 是 用 新 函数 对 read 进 行 错误 检查 的 代码 : 


if ((amt = read(fd, buf, numbyte)) == -1) { 
fprintf (stderr, "Read failed!: %s (errno = td; %s)\n", 
strerror(errno), errno, errsymbol (errno) ); 
exit (EXIT_FAILURE) ; 





$ 


现在 给 出 是 完整 的 ， 


Read failed!: Bad file descriptor (errno = 9; EBADF) 
编写 一 个 能 够 格式 化 错误 信息 的 更 具 实用 性 的 函数 是 很 方便 的 ， 因 此 可 以 将 它 用 于 下 节 
将 要 编写 的 代码 中 : 


char *syserrmsg(char *buf, size_t buf_max, const char *msg, int errno_arg) 


{ 
char *errmsg; 


if (msg == NULL) 
msg = "222"; 
if (errno_arg == 0) 
snprintf (buf, buf_max, "ts", msg); 
else { 
errmsg = strerror(errno_arg); 
snprintf (buf, buf_max, "ts\n\t\t*** ts (8d: \"ts\") ****, msg, 
errsymbol(errno_arg), errno_arg, 
errmsg != NULL ? errmsg : “no message string"); 
) 
return buf; 
} 


我 们 将 这 样 使 用 syserrmsg: 


if ((amt = read(fd, buf, numbyte)) == -1) { 
fprintf(stderr, "%s\n", syserrmsg(buf, sizeof (buf), 
"Call to read function failed", errno)); 
exit (EXIT_FAILURE) ; 
} 


其 输出 如 下 : 


Call to read function failed 
*** EBADF (9: "Bad file descriptor") *** 


那么 ， 对 于 其 他 20% 仅 报告 错误 但 不 设置 errno 的 调用 ， 该 怎样 处 理 呢 ? 在 它们 当中 ， 
大 约 有 20 个 会 采用 其 他 方法 报告 错误 ， 通 常 是 简单 返回 错误 代码 ( 即 ， 非 零 返 回 值 表明 发 生 
了 错误 ， 同 时 也 表明 代码 的 含义 ) ， 其 余 的 将 完全 不 提供 具体 的 原因 。 在 本 书 中 ， 将 提供 每 
个 函数 (共计 300 个 左右 ) 的 详细 内 容 。 下 面 是 一 个 直接 返回 错误 代码 的 例子 (该 代码 的 功能 
目前 并 不 重要 ): 


struct addrinfo *infop; 
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if ((r = getaddrinfo(*localhost"，"80"，NULL，&infop)) != 0) { 
fprintf(stderr, "Got error code sa from getaddrinfo\n", r); 
exit (EXIT_FAILURE) ; 
} 
getaddrinfo 是 不 设置 errno 的 函数 之 一 ， 不 能 将 它 返 回 的 错误 代码 传递 给 strerror， 
为 strerror 函 数 只 对 errno 值 有 效 。 在 [SUS2002] 或 系统 手册 中 定义 了 那些 不 设置 errno 的 
函数 所 返回 的 不 同 错误 代码 ， 因 此 当然 可 以 为 那些 函数 编写 某 个 版 本 的 errsymbol ( 见 上 文 )。 
但 困难 的 是 ， 不 能 指定 某 个 函数 的 符号 拥有 与 其 他 函数 符号 相 区 别 的 值 。 这 就 意味 着 不 能 编写 
一 个 仅 处 理 并 查询 某 个 错误 代码 的 函数 ， 像 errsymbo1 一 样 ， 同 样 必须 传 入 函数 的 名 称 。( 这 
样 做 可 以 从 gai_strerror 中 获得 好 处 ， 它 是 专 为 getaddrinfo 定 作 的 strerror 版 本 )。 
本 书 中 大 约 有 20 多 个 函数 ， 在 标准 [SUS2002] 中 没有 定义 任何 errno 的 值 ， 或 者 即使 设置 
了 erzrno 的 值 ， 但 在 实现 的 时 候 也 许 还 需要 设 定 errno。 在 这 些 函 数 的 对 照 表 中 将 显示 短语 
“errno not defined” , 
开始 感觉 头疼 了 吗 ? UNIX 的 错误 处 理 真是 一 团 乱 麻 。 很 不 幸 ， 要 构造 能 使 系统 调用 出 错 
的 测试 实例 来 检测 错误 控制 代码 是 很 困难 的 ， 这 种 矛盾 使 得 每 次 使 其 恢复 正常 都 很 困难 。 但 
是 目前 无 法 对 其 进行 改善 ( 受 标 准 所 限 ) ， 所 以 必须 适应 这 种 状况 。 不 过 要 小 心 ! 


14.2 C 错 误 检测 宏 
将 每 个 系统 调用 加 入 到 if 语 句 ， 并 在 其 后 编写 显示 错误 信息 以 及 退出 或 返回 的 代码 是 很 
单调 乏味 的 。 当 需要 做 清理 工作 时 ， 事 情 将 会 变 得 更 粳 ， 如 下 例 所 示 : 


if ((p = malloc(sizeof(buf))) == NULL) { 
fprintf(stderr, "%s\n", syserrmsg(buf, sizeof (buf), 
"malloc failed", errno)); 
return false; 
k 
if ((fdin = open(filein, O_RDONLY)) == -1) { 
fprintf(stderr, "ts\n", syserrmsg(buf, sizeof(buf), 
“open (input) failed", errno)); 
free(p); 
return false; 
$ 
if ((fdout = open(fileout, O_WRONLY)) == -1) { 
fprintf(stderr, *ts\n", syserrmsg(buf, sizeof (buf), 
“open (output) failed", errno)); 
(void) close (fäin); 
free(p); 
return false; 


) 

继续 下 去 ， 清 理 代码 将 会 越 来 越 长 ， 难 以 编写 、 阅 读 和 维护 。 有 些 程序 员 会 使 用 一 个 
goto 语 句 ， 使 得 清理 代码 只 需 编写 一 次 。 通 常 应 当 避 免 使 用 goto 语 句 ， 但 这 里 似乎 值得 一 
用 。 注 意 必 须 很 仔细 地 初始 化 含有 清理 代码 和 对 文件 描述 符 的 值 进行 测试 的 变量 ， 以 保证 无 
论处 于 何 种 不 完整 的 状态 ， 清 理 代码 都 能 正确 执行 。 


char *p = NULL; 
int fdin = -1, fdout = -1; 


if ((p = malloc(sizeof(buf))) == NULL) { 
fprintf(stderr, "%s\n", syserrmsg(buf, sizeof (buf), 
"malloc failed", errno)); 
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goto cleanup; 
) 
if ((£din = open(filein, O_RDONLY)) == -1) { 
fprintf(stderr, "ts\n", syserrmsg(buf, sizeof (buf), 
"open (input) failed", errno)); 
goto cleanup; 
) 
if ((fdout = open(fileout, O_WRONLY)) == -1) { 
fprintf(stderr, *ts\n", syserrmsg(buf, sizeof (buf), 
"open (output) failed", errno)); 
goto cleanup; 





} 


return true; 


cleanup: 
free(p); 
if (fdin t= -1) 
(void) close (£din) ; 
if (fdout != -1) 


(void) close (fdout) ; 
return false; 


编写 所 有 那些 if、fprintf 和 goto 代 码 ， 仍 然 很 痛苦 。 系 统 调用 本 身 的 代码 几乎 被 流 
wT! 

可 以 使 用 某 些 宏 来 简化 检测 错误 、 显 示 错 误 信息 和 从 函数 获取 信息 等 任务 。 下 文 将 首先 
说 明 其 使 用 方法 ， 然 后 说 明 其 实现 方法 〈 该 内 容 只 使 用 了 标准 C 编 码 ， 与 系统 调用 及 UNIX 没 
什么 特别 的 联系 ， 但 由 于 它 将 被 用 于 本 书 随后 的 所 有 例子 ， 所 以 在 此 包含 了 这 个 内 容 ) 。 

下 面 使 用 这 些 错误 检测 (“ec”) 宏 ， 重 新 编写 上 一 个 例子 。 在 此 没有 显示 其 上 下 文 ， 但 


该 代码 包含 在 名 为 fcn 的 函数 中 : 


char *p = NULL; 
int fdin = -1, fdout = -1; 


ec_null( p = malloc(sizeof(buf)) ) 
ec_negl( fdin = open(filein, O_RDONLY) ) 
ec_negl( fdout = open(fileout, O_WRONLY) ) 


return true; 


EC_CLEANUP_BGN 
free(p); 
if (fdin != -1) 
(void) close (fdin); 
if (fdout != -1) 
(void) close (fdout) ; 
return false; 
EC_CLEANUP_END 


以 下 是 对 该 函数 的 调用 。 由 于 它 处 于 main 函 数 中 ， 因 此 在 出 现 错误 时 退出 是 有 意义 的 。 
ec_false( fen() ) 
/* other stuff here */ 
exit (EXIT_SUCCESS) ; 
EC_CLEANUP_BGN 


exit (EXIT_FAILURE) ; 
=C_CLEANUP_END 
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上 述 调用 的 执行 过 程 是 : 宕 ec_null、ec_neg1l 和 ec_false 分 别 检测 其 参数 表达 式 是 否 
为 NULL、-1 和 false， 存 储 错误 信息 ， 并 转向 宏 EC_CLEANUP_BGN 位 置 的 标签 。 然 后 ， 运 行 
和 上 文 相同 的 清理 代码 。 在 main 中 ， 对 fcn 返 回 值 的 测试 同样 会 跳 转 到 main 中 的 相同 标签 ， 
接着 程序 退出 。 用 atexit ( 见 1.3.4 中 的 介绍 ) 装载 的 函数 可 以 显示 所 有 积累 的 错误 信息 


ERROR: 0: main [/aup/cl/errorhandling.c:41] fcn() 
1: fen [/aup/cl/errorhandling.c:15) fdin = open(filein, 0x0000) 
*** ENOENT (2: “No such file or directory*) *** 

在 最 后 一 行 中 ， 可 以 看 到 errno 符 号 、 值 和 描述 文本 。 在 它 之 前 是 错误 返回 的 反 向 跟踪 。 
每 行 跟踪 显示 了 层次 、 函 数 名 、 文 件 名 、 行 号 和 返回 错误 所 指示 的 代码 。 这 类 信息 不 是 给 最 终 
用 户 看 的 ， 但 在 开发 阶段 它 非 常 有 用 。 以 后 ， 可 以 改变 这 些 宏 命令 (很 快 就 可 以 看 到 是 如 何 改 
变 的 ) 以 将 上 述 内 容 存储 到 某 个 日 志文 件 中 ， 使 得 用 户 能 看 到 一 些 对 他 们 更 有 意义 的 东西 。 

在 运行 时 ， 因 为 要 给 应 用 程序 开发 者 最 大 的 自由 度 ， 用 其 认为 合适 的 方式 来 处 理 错误 ， 
所 以 是 将 错误 信息 累积 起 来 而 不 是 显示 出 来 。 对 库 中 的 函数 来 说 ， 只 是 将 错误 信息 写 到 
stderr 中 实在 是 没有 什么 用 。 错 误 信息 可 能 没有 出 现在 合适 的 位 置 ， 对 应 用 程序 的 最 终 用 户 
来 说 ， 其 措辞 也 可 能 不 太 恰当 。 当 然 ， 我 们 最 终 会 把 它们 显示 出 来 ， 如 果 在 实际 应 用 中 使 用 
这 些 宏 ， 那 项 决定 将 能 够 很 容易 地 被 改变 。 

综 上 所 述 ， 这 些 宏 可 以 提供 以 下 功能 : 

， 简 单 易 读 的 错误 检测 

À 自动 跳 转 以 清理 代码 

。 提 供 完 整 的 错误 信息 和 回 滴 追踪 

宏 的 缺点 是 句法 有 些 奇怪 ( 句 末 没有 分 号 ) ， 而 且 控制 流 中 存在 着 某 些 程序 员 认 为 是 非常 
不 好 的 隐 式 跳 转 。 如 果 你 认为 利 大 于 县 ， 就 可 以 使 用 宏 (就 像 本 书 这 样 )。 否 则 ， 你 就 应 该 自 
己 去 设计 (可 能 会 使 用 显 式 的 goto 语 句 而 不 是 隐 式 的 goto 语 句 ) ， 或 者 完全 忽略 它们 。 

以 下 是 实现 错误 检测 宏 的 头 文件 (ec.h) 的 大 部 分 内 容 (忽略 了 一 些 函 数 声 明和 少量 其 他 


的 次 要 细节 )， 


extern const bool ec_in_cleanup; 
typedef enum (EC_ERRNO, EC_EAI} EC_ERRTYPE; 


#define EC_CLEANUP_BGN\ 
ec_warn();\ 
ec_cleanup_bgn:\ 

{\ 
bool ec_in_cleanup;\ 
ec_in_cleanup = true; 

#define EC_CLEANUP_END\ 

} 


#define ec_cmp(var, errrtn)\ 
{\ 
assert (!ec_in_cleanup) ; \ 
if ((intptr_t) (var) == (intptr_t)(errrtn)) (\ 
ec_push(__func_, _FILE_, _LINE_, #var, errno, EC_ERRNO);\ 
goto ec_cleanup_bgn;\ 
» 
} 


#define ec_rv(var)\ 
A 
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int errrtn;\ 
assert (!ec_in_cleanup) ;\ 
if ((errrtn = (var)) != 0) {\ 
ec_push(_func_, _FILE_, _LINE_, #var, errrtn, EC_ERRNO);\ 
goto ec_cleanup_bgn;\ 
W 
ł 


#define ec_ai (var) \ 
{\ 
int errrtn;\ 
assert (!ec_in_cleanup) ;\ 
if ((errrtn = (var)) != 0) (\ 
ec_push(__func_, _FILE_, _LINE_, #var, errrtn, EC_EAI);\ 
goto ec_cleanup_bgn;\ 
W 
} 


#define ec_negl(x) ec_cmp(x, -1) 
#define ec_null(x) ec_cmp(x, NULL) 
"define ec_false(x) ec_cmp(x, false) 
#define ec_eof (x) ec_cmp(x, EOF) 
#define ec_nzero(x)\ 

{\ 

if ((x) t= 0)\ 
EC_FAIL\ 
) 


#define EC_FAIL ec_cmp(0, 0) 


#define EC_CLEANUP goto ec_cleanup_bgn; 
#define EC_PLUSH(str)\ 
A 
ec_print():\ 
ec_reinit ();\ 
} 
在 解释 宏 之 前 ， 我 们 必须 首先 讨论 一 个 问题 并 提出 其 解决 方案 。 该 问题 是 如 果 你 在 清理 
代码 中 调用 了 一 个 错误 检测 宏 (例如 ec_neg1) 并 且 出 现 了 错误 ， 那 么 很 可 能 会 形成 一 个 无 
限 循 环 ， 因 为 宏 还 会 跳 转 到 清理 代码 中 ! 下 面 正 是 这 样 一 个 例子 : 


EC_CLEANUP_BGN 
free(p) 
if (fdin != -1) 
ec_neg1( close(fdin) ) 
if (fdout != -1) 
ec_negl( close(fdout) ) 
return false; 
EC_CLEANUP_END 


看 上 去 程序 员 是 在 非常 小 心地 检测 close 返 回 的 错误 ， 但 其 做 法 会 带 来 非常 严重 的 后 果 。 
其 真正 精 糕 的 是 只 有 在 某 错 误 后 存在 错误 清理 时 才 会 发 生 循环 ， 而 这 是 一 种 在 三 试 时 氟 交 情 奖 
的 非常 不 常见 的 情况 。 应 谨防 这 种 情况 一 一 错误 检测 安 应 当 增加 可 靠 性 ， 而 恶 昌隆 低 可 华 性 中 ， 
解决 方案 是 在 清理 代码 中 加 入 一 个 局 部 变量 ec_in_cleanup， 并 将 丙午 仅 骸 +rue,“ 束 
{R7EEEC_CLEANUP_BGNVE LPARAM AE. HI CMRE EF Kec empek it 


了 该 值 ，assert 就 会 启动 ， 从 而 就 知道 出 错 了 ) 中 。 
(bool 类 型 及 其 值 true 和 false， 是 在 C99 中 新 引入 的 。 如 果 缺 少 它们 人 艰 竹 只 能 类 以 下 
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代码 


typedef int bool; 
#define true 1 
#define false 0 


粘贴 到 某 个 头 文件 中 。) 

为 防止 在 清理 代码 之 外 调用 ec_cmp 时 阻止 断言 启动 (例如 某 正常 调用 ) ， 引 入 了 全 局 变 
量 ， 将 其 同样 命名 为 ec_in_cleanup， 并 永久 性 地 设 为 false。 仅 在 很 少 的 特例 中 可 以 
(本 质 上 ， 实 际 上 ) 使 用 局 部 变量 来 隐藏 全 局 变量 。 

为 什么 要 用 局 部 变量 ? 为 什么 在 清理 代码 的 开头 不 将 全 局 变量 设 为 true， 并 在 代码 末尾 
改 回 false 呢 ?答案 是 ， 如 果 从 恰好 合法 使 用 ec_cmp 宏 的 清理 代码 中 调用 某 函 数 ， 上 述 方 
法 将 不 起 作用 。 它 将 会 发 现 全 局 变量 被 设 成 了 true， 从 而 认为 它 在 自身 的 清理 代码 中 ， 但 实 
际 并 不 是 这 样 。 因 此 ， 每 个 函数 (就 是 说 ， 每 个 单独 的 清理 代码 部 分 ) 都 需要 一 个 私有 的 保 
护 变量 。 

下 面 将 逐一 介绍 宏 : 

*EC_CLEANUP_BGN 包 括 清理 代码 的 标签 (ec_cleanup_bgn), 在 其 前 面 的 函数 调用 

仅 输出 一 条 控制 流入 标签 的 警告 。 这 可 以 避免 忘记 在 标签 之 前 放置 一 条 return 语 句 而 

导致 在 没有 错误 时 跳 入 清理 代码 之 类 的 常见 错误 。( 这 是 我 为 了 查找 不 存在 的 错误 而 浪 
费 了 一 个 小 时 得 到 的 经 验 教训 。) 接着 是 上 文 讲述 过 的 ec_in_cleanup。 

*EC_CLEANUP_END 只 是 起 到 一 个 封闭 大 括号 的 作用 。 需 要 这 些 大 括号 来 创建 局 部 上 
Fx. 

"ec_cmp 做 了 大 部 分 的 工作 : 确保 没有 处 于 清理 代码 中 ， 检 测 错误 ， 调 用 ec_push (下 
文 很 快 就 要 讲 到 ) 把 位 置信 息 (_FILE_ 等 ) 压 入 堆栈 ， 并 跳 到 清理 代码 。 类 型 
intptr_t 是 C99 新 加 入 的 : 它 是 一 个 能 够 容纳 指针 的 整数 类 型 。 如 果 缺少 该 类 型 ， 把 
typedef 定 为 long 也 可 以 。 如 果 要 更 强 的 安全 性 ， 可 以 在 程序 的 某 处 粘贴 一 些 用 于 测 
试 sizeof (void *) 等 于 sizeof(1ong) 的 代码 。( 如 果 不 熟 悉 符 号 #var ， 请 研读 C 
语言 -一 它 把 无 论 什么 var 都 扩大 到 一 个 字符 串 。) 

*ec_rv 和 ec_cmp 相 似 ， 但 是 它 用 于 返回 一 个 非 零 错误 代码 以 指示 错误 ， 而 不 使 用 
errno 本 身 的 函数 。 然 而 ， 返 回 的 代码 是 errno 值 ， 因 此 可 以 直接 传递 给 ec_push。 

。ec_ai 和 ec_rv 相 似 , 但 是 它 所 处 理 的 错误 代码 不 是 errno 值 。 为 表明 这 种 情况 ， 传 
递 给 ec_push 的 最 后 一 个 参数 是 EC_EAI ( 仅 有 第 8 章 出 现 的 两 个 函数 使 用 这 种 方法 )。 

。 宏 ec_negl、ec_null、ec_false 和 ec_eof 使 用 恰当 的 函数 调用 ec_cmp， 而 
ec_nzero 自 己 进行 检测 。 它 们 适用 于 大 多 数 情况 ， 对 其 他 情况 可 以 仅 直 接 使 用 
ec_cmp。 

。 当 由 于 没有 使 用 上 上段 介绍 的 宏 ， 而 出 现 测试 错误 时 ， 使 用 EC_FAIL。 

。EC_CLEANUP 仅 用 于 需要 跳 入 清理 代码 的 情况 。 

*EC_FLUSH 仅 用 于 需要 显示 错误 信息 而 不 需要 等 待 退出 的 情况 。 这 对 于 需要 保持 持续 运 
行 的 交互 式 程序 来 说 是 很 方便 的 。 

过 里 没有 列 出 宏 调 用 的 各 种 服务 函数 ， 因 为 它们 对 UNIX 系 统 调用 说 明 得 不 多 (它们 仅 使 
用 标准 C) ， 你 可 以 到 AUP 的 网 站 [AUP2003] 对 其 进行 浏览 ， 网 站 中 还 有 关于 它们 工作 方法 的 
解释 。 概 括 如 下 : 

，ec_push 将 传送 给 它 ( 例 如 由 ec_cmp 宏 传 来 的 ) 的 错误 及 其 上 下 文 信息 压 入 堆栈 中 。 

。 用 atexit 注 册 的 函数 ， 在 程序 退出 时 显示 堆栈 中 的 信息 : 
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static void ec_atexit_fcn(void) 


{ 
ec_print (); 
) 


"ec_print 遍 历 堆栈 以 显示 跟踪 和 错误 信息 。 

"ec_reinit 清 空 堆栈 内 容 ， 使 得 错误 检测 可 以 开始 全 新 的 跟踪 。 

。 如 果 碰 巧 陷 入 其 中 ， 则 从 EC_CLEANUP_BGN 代 码 中 调用 ec_warn。 

所 有 这 些 函 数 都 是 线程 安全 的 ， 因 此 可 以 在 多 线程 程序 中 使 用 。 本 书 在 5.17 节 中 对 此 进行 


了 更 详细 的 介绍 。 


1.4.3 使 用 C++ 异常 

在 花费 很 多 的 时 间 和 精力 开始 决定 是 否 喜欢 前 节 的 “ec” 宏 和 提出 改进 之 前 ， 最 好 扣 心 自 
问 是 否 使 用 C 编 程 。 现 在 你 更 有 可 能 会 想 使 用 C++。 毕 竟 ， 几 乎 本 书 中 的 所 有 内 容 都 能 很 好 地 
适用 于 C++ 程序 。 对 于 嵌入 式 系统 、 操 作 系统 (如 Linux) 、 编 译 器 和 其 他 相对 低级 的 软件 而 言 ， 
C 仍 然 是 很 好 的 编程 语言 ， 但 是 这 些 系统 更 趋向 于 采用 其 自 带 的 、 高 度 专用 的 错误 处 理 机 制 。 

C++ 提供 了 用 异常 处 理 错误 的 机 会 ， 异 常 是 C++ 语言 内 建 的 ， 而 不 是 像 C 语 言 所 使 用 的 goto 
和 return 语 名 的 组 合体 。 异 常 自身 也 有 缺陷 ， 但 如 果 小 心 使 用 ， 它 们 会 比 “ec” 宏 更 容易 使 用 ， 
且 更 为 可 靠 。 例 如 ，“ec” 宏 不 会 在 想 使 用 ec_neg1 却 误 用 了 ec_nul1 的 时 候 提 供 保护 。 

由 于 包含 系统 调用 包 代码 的 库 通常 都 只 提供 C 版 本 的 ， 所 以 除非 特别 制作 了 C++ 版 本 的 ， 
否则 它 将 不 会 抛 出 异常 。 因 此 ， 要 使 用 异常 ， 就 需要 进行 另 一 层次 的 封装 ， 正 如 以 下 close 


系统 调用 所 显示 的 那样 : 


class syscall_ex ( 
public: 
int se_errno; 


syscall_ex(int n) 
: se_errno(n) 
{} 

void print (void) 


{ 
fprintf(stderr, “ERROR: %s\n", strerror(se_errno)); 


} 
X 


class syscall { 
public: 
static int close(int fd) 
{ 
int r; 
if ((r = ::close(fa)) == -1) 
throw(syscall_ex (errno)); 
return r; 
} 
pa 
然后 ， 只 需要 调用 syscall: :close 而 不 是 直接 调用 close， 它 会 在 发 生 错误 时 抛 出 一 


个 异常 。 可 能 并 不 需要 键入 其 他 大 约 1100 个 UNIX 函 数 的 代码 ， 而 仅仅 只 需要 键入 应 用 程序 中 


所 使 用 的 那些 。 
如 果 想 要 在 异常 信息 中 包含 诸如 文件 和 行 号 等 本 地 信息 ， 就 需要 定义 另 一 个 包 (这 次 是 
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一 个 宏 ) 用 来 捕获 预 处 理 的 数据 (例如 via_LINE_)，9 因此 有 如 下 两 个 更 为 奇特 的 类 : 


class syscall ex ( 
public: 
int se_errno; 
const char *se_file; 
int se_line; 
const char *se_func; 


syscall_ex(int n, const char *file, int line, const char *func) 
: Se_errno(n), se_file(file), se_line(line), se_func(func) 
t} 

void print (void) 


{ 
fprintf(stderr, “ERROR: ts [%s:%d ts()]\n", 


strerror(se_errno), se_file, se_line, se_func); 


yi 


class syscall { 
public: 
static int close(int fd, const char ‘file, int line, const char *func) 


t 


int r; 
if ((r = ::close(fd)) == -1) 
throw(syscall_ex(errno, file, line, func)); 
return r; ` 
} 
X 
#define Close(fd) (syscall::close(fd, _FILE_, _LINE_, —func_)) 


这 次 调用 的 是 Close 而 不 是 close。 

如 果 愿 意 ， 还 可 以 通过 逐个 调用 追踪 使 其 膨大 ， 就 像 对 “ec” 宏 所 做 的 那样 ， 也 许 比 它 
还 要 大 。 
在 本 书 的 附录 B 中 ， 描 述 了 一 个 叫 作 Ux 的 C++ 包 的 例子 ， 其 中 封装 了 所 有 的 系统 调用 。 


1.5 UNIX 标 准 

事实 上 ， 在 现实 世界 中 ， 大 多 数 商业 UNIX 销 售 商都 使 用 Open Group 的 品牌 ( 见 1.2 节 )， 而 开 
源 软件 发 行人 声称 只 遵从 POSIX1990 (虽然 存在 少量 例外 ) ， 但 实际 上 他 们 中 的 大 部 分 并 没有 进 
行 过 认证 检测 (现在 该 检测 已 经 可 以 自由 开展 了 ， 因 此 从 现在 看 ， 未 来 的 认证 很 可 能 会 实现 )。 


1.5.1 API 标 准 的 演化 
要 列举 所 有 不 同 的 POSIX 和 Open Group 的 标准 、 指 南 和 规范 ， 会 非常 复杂 令 人 困惑 。 在 
大 多 数 情 况 下 ， 所 有 相关 的 发 展 都 可 以 被 简单 地 认为 是 与 UNIX API 相 关 的 标准 的 发 展 ， 其 中 
仅 有 表 1-2 中 列 出 的 8 个 标准 ， 才 是 本 书 要 重点 讲述 的 。 
实际 上 ， 还 有 一 个 POSIX2001 (IEEE 标 准 POSIX.1-2001)， 但 由 于 它 已 包含 在 SUS3 中 ， 


所 以 不 需要 单独 列 出 。 


日 ”我 们 需要 该 宏 是 因为 如 果 仅 把 _LINE_ 和 其 他 的 预 处 理 数据 作为 syscal1l_ex 构 造 体 的 直接 参数 ， 就 会 在 
class syscall 定 义 中 得 到 一 个 错误 的 位 置 。 
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31-2 POSIX 和 Open Group API 标 准 





名 称 标准 解释 

POSIX 1988 IEEE 标 准 1003.1-1988 (198808L") 第 一 个 标准 

POSIX1990 IEEE $y HE 1003. 1-1990/IS09945-1 ; POSIX1988 的 较 少 更 新 
1990 (199009L) 

POSIX1993 IEEE 标 准 1003.1b-1993 (199309L) POSIX1990+ 实 时 

POSIX1996 IEEE 标 准 1003.1-1996/ISO 9945-1: POSIX1993+ 线 程 + 修正 的 实时 
1996(199506L) 

XPG3 X/Open Portability Guide 第 一 个 分 布 广泛 的 X/Open 准则 

SUSI 单一 UNIX 规 范 ， 版 本 1 POSIX1990+BSD、AT&T 系 统 V 和 OSF 所 


使 用 的 一 般 API， 还 有 著名 的 1170 规 范 ， 标 有 
UNIX9501 的 已 认证 系统 


SUS2 单一 UNIX 规 范 ， 版 本 2 更 新 POSIX1996 的 SUS1+64 位 、 大 文件 、 增 
强 的 多 字 节 和 Y2K， 标 有 UNIX98 商 标 

SUS3 单一 UNIX 规 范 ， 版 本 3 (2002112L) 更 新 SUS2，API 部 分 符合 IEEE 标 准 1003.1- 
2001 (POSIX 与 Open Group 完全 融合 ) ， 标 有 
UNIX 03 商 标 





* 这 个 巨大 的 数 是 IEEE 通 过 的 年 和 月 ， 它 们 将 被 用 在 下 一 节 解 释 的 特性 检测 中 。 
+1170 规 范 的 命名 来 自 API、 头 文件 和 命令 的 总 数 。 


即便 是 从 这 张 过 于 简化 的 列表 中 也 还 是 可 以 看 出 ， 不 严谨 声明 OS“ 遵 从 POSIX” 是 毫 无 
意义 的 ， 如 果 发 表 了 这 种 不 严谨 的 声明 ， 那 么 表明 发 布 声 明 的 人 要 么 没有 真正 了 解 POSIX 
(或 SUS) ， 要 么 假定 听众 不 民 。POSIX 指 的 是 什么 ”同时 ， 由 于 一 些 新 特性 ， 如 实时 和 线程 
等 是 可 选 的 ， 选 项 是 什么 ? 一 般 来 说 ， 以 下 是 对 声明 内 容 的 一 种 解释 : 

。 如 果 所 听 到 的 都 是 说 POSIX， 它 可 能 意味 着 POSIX1990。 这 是 大 多 数 人 掌握 起 来 很 困难 

的 第 一 个 也 是 最 后 一 个 标准 。 

。 除 非 知道 某 操作 系统 已 经 通过 了 标准 化 组 织 制定 的 认证 测试 ， 否 则 所 能 确定 的 只 是 OS 

开发 者 仅 在 某 种 程度 上 考虑 了 POSIX 标 准 。 

。 必 须 单独 研究 可 选 特性 的 状态 ( 稍 后 会 更 详细 地 讲述 这 些 )。 


1.5.2 告诉 系统 你 想 要 什么 

本 节 和 下 节 将 描述 根据 标准 应 当做 什么 ， 以 便 保证 应 用 程序 适应 环境 并 检测 0S 遵从 的 标 
准 的 版 本 。 然 后 可 以 决定 需要 做 多 少 工作 ， 可 以 忽略 多 少 工作 。 

首先 ， 通 过 在 包含 任何 POSIX 头 文件 (如 unistd.h). 之 前 定义 一 个 预 处 理 符号 ， 应 用 程序 
可 以 表明 它 希望 的 标准 版 本 是 什么 。 这 限定 了 标准 头 文件 (如 stdioh、unistd.h、errmo.h)， 使 
得 我 们 只 能 使 用 那些 已 经 在 标准 中 定义 了 的 符号 。 为 了 把 自己 限制 在 标准 的 POSIX1990 中 ， 
可 以 这 样 做 : 


#define _POSIX_SOURCE 
#include <sys/types.h> 
#include <unistd.h> 


对 于 较 新 的 POSIX 标 准 ， 必 须 更 具体 一 些 ， 可 以 像 下 面 这 样 另 外 增加 一 个 符号 : 


#define _POSIX_SOURCE 
#define _POSIX_C_SOURCE 199506L 
#include <sys/types.h> 
#include <unistd.h> 
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注意 ， 与 _POSIX_SOURCE 不 同 ，_POSIX_C_SOURCE 有 一 个 通常 由 标准 通过 时 (例如 
1995 年 6 月 ) 的 年 和 月 构成 的 长 整数 类 型 的 值 。 另 一 个 可 能 的 长 整数 值 是 200112L。 但 对 于 
POSIX1990， 应 将 它 设 为 1， 而 不 是 199009L。 © 

如 果 使 用 商业 UNIX 系 统 ， 那 么 很 可 能 使 你 感 兴趣 的 不 是 POSIX， 而 是 SUS， 因 为 它 有 一 个 
专门 针对 于 商业 UNIX 系 统 的 符号 _XOPEN_SOURCE, 这 个 符号 有 两 个 特殊 的 值 : 500 针 对 SUS2， 
600 针 对 SUS3。 因 此 ， 如 果 要 使 用 SUS2 的 内 容 一 号称 UNIX98 的 系统 ， 应 进行 如 下 工作 : 

#define _POSIX_SOURCE 

#define _POSIX_C_SOURCE 199506L 

#define _XOPEN_SOURCE 500 


#include <sys/types.h> 
#include <unistd.h> 


对 于 SUS1， 定 义 _XOPEN_SOURCE 了 时 不 用 定义 它 的 值 ， 同 时 将 _XOPEN_SOURCE_ 
EXTENDED 的 值 定义 为 1: 


#define _POSIX_SOURCE 
#define _POSIX_C_SOURCE 2 
#define _XOPEN_SOURCE 

#define _XOPEN_SOURCE_EXTENDED 1 
#include <unistd.h> 


从 技术 角度 说 ， 如 果真 有 SUS2 系 统 ， 就 不 需要 定义 头 两 个 POSIX 符 号 了 ， 因 为 它们 是 自 
动 定 义 的 。 但是， 如果 编写 的 源 代 码 有 可 能 会 用 在 更 老 的 系统 上 ， 则 需要 加 入 上 述 定义 ， 用 
POSIX 可 以 明确 理解 的 方式 告诉 它 。_POSIX_C_SOURCE 的 值 是 由 _XOPEN_SOURCE 决 定 的 ， 
当 后 者 的 值 没 有 定义 时 ， 前 者 的 值 应 该 为 2; 当 后 者 的 值 为 5900 时 ， 前 者 的 值 应 为 199506Li; 
为 600 时 ， 应 为 200112L。 

感到 迷惑 了 吗 ? 简直 太 精 糕 了 ， 因 为 它 越 来 越 精 了 。 为 了 能 有 所 帮助 ， 以 下 给 出 待 办 工 
作 的 总 结 : 

* 决 定 所 写 程序 期 望 达到 的 标准 化 级 别 。 

。 如 果 仅 是 POSIX1990， 那 么 就 只 定义 _POSIX_SOURCE。 

。 如 果 是 POSIX1993 或 是 POSIX1996， 那 么 就 同时 定义 _POSIX_SOURCE 和 

_POSIX_C_SOURCE， 并 使 用 1.5.1 节 表 1-2 中 的 适当 数值 。 

。 如 果 是 SUS1、SUS2 或 SUS3， 那 么 就 定义 _XOPEN_SOURCE (无 值 、500 或 600)， 并 使 

用 那 两 个 带 有 合适 数值 的 POSIX 符 号 。 

。 对 于 SUS1， 同 时 须 将 _XOPEN_SOURCE_EXTENDED 的 值 定义 为 1。 

。 忘 了 XPG3 (还 有 本 书 没 提 及 的 XPG4) 吧 一 一 你 的 麻烦 已 经 够 多 了 。 

在 包含 某 个 头 文件 之 前 ， 很 容易 编写 一 个 这 样 的 头 文件 ， 该 头 文件 设置 了 多 个 基于 单独 
定义 的 请 求 符号 。 以 下 是 头 文件 suvreq.he ; 本 书 将 在 下 一 节 中 介绍 它 的 用 法 。 

‘ Header to request specific standard support. Before including it, one 

of the following symbols must be defined (1003.1-1988 isn't supported): 


SUV_POSIX1990 for 1003.1-1990 
SUV_POSIX1993 for 1003.1b-1993 - real-time 
SUV_POSIX1996 for 1003.1-1996 


O ”如果 也 需要 来 自 1003.2.-1992 的 C 绑 定 ， 可 以 将 它 设置 为 2。 
© 其 发 音 是 “S-U-V wreck"。SUV 代 表 标 准 UNIX 版 本 - 
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SUV_sUs1 for Single UNIX Specification, v. 1 (UNIX 95) 
SUV_SUS2 for Single UNIX Specification, v. 2 (UNIX 98) 
SUV_SUS3 for Single UNIX Specification, v. 3 (UNIX 03) 
ah 


#if defined (sUV_POSIx1990) 
#define _POSIX_SOURCE 
#define _POSIX_C_SOURCE 1 


#elif defined (sUV_POSIX1993) 
define _POSIX_SOURCE 
#define _POSIX_C_SOURCE 199309L 


#elif defined (SUV_POSIX1996) 
#define _POSIX_SOURCE 
#define _POSIX_C_SOURCE 199506L 


Welif defined (suv_sus1) 
define _POSIX_SOURCE 

#define _POSIX_C_SOURCE 2 
Wdefine _XOPEN_SOURCE 

define _XOPEN_SOURCE_EXTENDED 1 


Welif defined (suv_sus2) 
"define _POSIX_SOURCE 

"define _POSIX_C_SOURCE 199506L 
define _XOPEN_SOURCE 500 
#define _XOPEN_SOURCE_EXTENDED 1 


Welif defined (suv_sus3) 
#define _POSIX_SOURCE 

#define _POSIX_C_SOURCE 200112L 
define _XOPEN_SOURCE 600 
#define _XOPEN_SOURCE_EXTENDED 1 
#endif 


如 果 试 图 写 一 个 高 可 移植 性 程序 ， 最 好 使 用 标准 的 东西 ， 这 样 有 助 于 确保 不 会 偶尔 使 用 
到 非 标准 的 东西 。 但 是 ， 对 其 他 应 用 ， 这 样 限制 就 太 死 了 。 例 如 ， 虽 然 FreeBSD 声 称 仅 遵从 
POSIX1990， 但 是 它 的 确 也 实现 了 SUS1 级 的 System V 消 息 。 如 果 需 要 消息 或 者 任何 其 他 
FreeBSD 提 供 的 POSIX1990 之 后 的 内 容 ， 就 不 需要 定义 _POSIX_SOURCE。 可 以 不 定义 它 ， 
因为 它 是 可 选 的 。 我 必须 做 的 是 得 到 本 书 中 运行 在 FreeBSDS 上 的 示例 代码 。 

我 们 解释 的 这 些 符号 和 可 笑 的 数字 可 能 会 使 你 头疼 ， 下 面 要 跟 你 说 的 是 ， 你 可 能 不 需要 
使 用 它们 。 欢 迎 来 到 标准 的 世界 ! 


1.5.3 系统 包含 的 内 容 

仅仅 对 使 用 _POSIX_SOURCE、_POSIX_C_SOURCE 和 _XOPEN_SOURCE 符 号 问 了 一 些 
问题 ， 这 并 不 意味 着 那 是 你 想得到 的 。 如 果 系 统 仅 是 POSIX1993， 那 就 是 系统 所 能 提供 的 全 
部 信息 。 如 果 那 刚好 是 所 需要 的 就 好 了 。 如 果 不 是 ， 就 需要 拒绝 编译 (使 用 #error 命 令 )， 
使 应 用 的 某 个 选项 特性 失效 ， 或 使 用 其 他 的 实现 方法 。 

在 包含 unistd.h 之 后 ,发现 OS 必 须 提供 内 容 的 方式 是 检测 _POSIX_VERSION 符 号 ， 如 果 
在 SUS 系 统 上 ， 那 么 还 要 检测 _XOPEN_UNIX 和 XOPEN_VERSION 符 号 。 上 节 中 使 用 的 4 个 
“SOURCE” 符 号 ， 是 告诉 系统 的 ， 现 在 系统 返回 给 你 。 


日 另外 ， 大 多 数 编译 器 和 操作 系统 都 具有 能 够 引入 有 用 的 非 标准 特性 的 其 他 符号 。 例 如 gcc 的 _GNU_SOURCE 
或 者 Solaris 的 _EXTENSIONS 。 可 以 查看 系统 文档 。 
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当然 ， 这 些 符号 甚至 可 能 都 没有 定义 ， 尽 管 这 对 于 _POSIX_VERSION 来 说 是 奇怪 的 ， 因 为 
已 经 成 功 地 包含 了 unistd.h 文 件 。 因 此 ， 必 须 仔细 测试 ， 使 用 预 处 理 命令 来 测试 的 方法 如 下 : 


#if _POSIX_VERSION >= 199009L 
/* we have some level of POSIX */ 


#else 
#error "Can be compiled only on a POSIX system!" 


#endif 


如 果 没 有 定义 _POSIX_VERSION， 它 将 被 替换 为 0。 

_POSIX_VERSION 从 上 一 节 的 表 中 取 值 ， 如 199009L。 如 果 系 统 的 标准 不 低 于 SUS1 ， 
那么 _XOPEN_UNIX 将 被 自动 定义 〈 值 为 空 )， 但 更 好 的 方法 是 检查 _XOPEN_VERSION， 其 
值 将 会 等 于 4 500 或 600， 也 许 将 来 还 会 是 某 个 更 大 的 数 。 

下 面 编写 一 个 小 程序 。 在 请 求 SUS2 兼 容 性 之 后 ， 它 将 输出 头 文件 的 一 些 信息 ( 头 文件 


suvreqh 在 前 一 节 中 ) 。 


#define SUV_SUS2 


#include "suvreq.h" 
#include <unistd.h> 
#include <stdio.h> 


int main(void) 
{ 
printf ("Request:\n"); 
#ifdef _POSIX_SOURCE 
printf ("\t_POSIX_SOURCE defined\n"); 
printf ("\t_POSIX_C_SOURCE = %1d\n", (long)_POSIX_C_SOURCE) ; 
#else 
printf ("\t_POSIX_SOURCE undefined\n"); 


#endif 


#ifdef _XOPEN_SOURCE 
#if _XOPEN_SOURCE +0 == 0 
printf ("\t_XOPEN_SOURCE defined (no value)\n"); 
#else 
printf("\t_XOPEN_SOURCE = d\n", _XOPEN_SOURCE) ; 
Henadif 
#else 
printf ("\t_XOPEN_SOURCE undefined\n"); 
#endif 
#ifdef _XOPEN_SOURCE_EXTENDED 
printf ("\t_XOPEN_SOURCE_EXTENDED defined\n"); 
#else 
printf (*\t_XOPEN_SOURCE_EXTENDED undefined\n"); 
#endif 


printf ("Claims:\n"); 
#ifdef _POSIX_VERSION 

printf ("\t_POSIX_VERSION = %1d\n", _POSIX_VERSION) ; 
#else 

printf ("\tNot POSIX\n"); 
#endif 


#ifdef _XOPEN_UNIX 
printf ("\tX/Open\n"); 
#ifdef _XOPEN_VERSION 
printf ("\t_XOPEN_VERSION = %d\n*, _XOPEN_VERSION) ; 
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#else 
Printf ("\tError: _XOPEN_UNIX defined, but not * 
*_XOPEN_VERSION\n") ; 
#endif 
#else 
print£("\tNot X/Open\n"); 
#endif 
return 0; 


) 
在 Solaris 8 系统 中 运行 时 ， 其 输出 如 下 : 


Request: 
-POSIX_SOURCE defined 
-POSIX_C_SOURCE = 199506 
-XOPEN_SOURCE = 500 
-XOPEN_SOURCE_EXTENDED defined 

Claims: 

—POSIX_VERSION = 199506 
X/Open 
-XOPEN_VERSION = 500 


Fst, Solaris 8 可 被 认为 是 符合 SUS2 的 。 但 是 如 果 将 代码 的 第 一 行 改 为 SUV_SUS1， 则 


其 输出 如 下 ; 
Request: 
_POSIX_SOURCE defined 
_POSIX_C_SOURCE = 2 
-XOPEN_SOURCE defined (no value) 
_XOPEN_SOURCE_EXTENDED defined 
Claims: 


—POSIX_VERSION = 199506 
X/Open 
-XOPEN_VERSION = 4 


这 意味 着 Solaris 可 同样 被 设置 为 像 SUS1 系 统 那样 运行 ， 隐 藏 所 有 比 SUS1 系 统 更 新 的 功能 。 
在 FreeBSD 4.6 系 统 中 运行 时 ， 其 输出 如 下 : 
Request : 
_POSIX_SOURCE defined 
“POSIX_C_SOURCE = 2 
“XOPEN_SOURCE defined (no value) 
XOPEN_SOURCE_EXTENDED defined 


Claims: 
_POSIX_VERSION = 199009 


Not X/Open 
这 意味 着 无 论 我 们 请 求 什么 ，FreeBSD 系 统 都 会 自称 只 是 符合 POSIX1990 的 。 
如 上 文 所 述 ， 对 FreeBSD 系 统 而 言 ， 你 可 能 不 想 进行 此 项 请 求 ， 因 为 这 会 去 除 其 已 经 包含 
的 太 多 内 容 ， 其 中 许多 内 容 遵 循 的 可 能 是 新 于 POSIX1990 的 某 些 标准 。 当 根本 没有 头 文件 
suvreq.h 后 ， 重 新 运行 程序 的 结果 如 下 : 


Request: 
_POSIX_SOURCE undefined 


_XOPEN_SOURCE undefined 

_XOPEN_SOURCE_EXTENDED undefined 
Claims: 

-POSIX_VERSION = 199009 

Not X/Open 


毫 无 疑问 ， 仍 遵从 POSIX1990。 有 趣 的 是 ， 在 Solaris 系 统 上 运行 时 ， 运 行 结果 表明 它 将 
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会 遵从 XPG3 ， 因 此 可 称 其 为 默认 级 别 。 对 于 号 称 UNIX98 的 Solaris 系 统 来 说 ， 为 什么 默认 级 
别 不 是 SUS2? 这 还 是 一 个 谜 。 以 下 是 Solaris 系 统 的 输出 : 





Request: 
_POSIX_SOURCE undefined 
_XOPEN_SOURCE undefined 
__XOPEN_SOURCE_EXTENDED undefined 

Claims: 


__POSIX_VERSION = 199506 
X/Open 
_XOPEN_VERSION = 3 


对 于 SuSE Linux 8.0 (Linux 2.4%, glibc 2.95.3 版 )， 当 定义 SUV_SUS2 时 得 到 的 结果 是 : 


Request: 
-POSIX_SOURCE defined 
-POSIX_C_SOURCE = 199506 
_XOPEN_SOURCE = 500 
~XOPEN_SOURCE_EXTENDED defined 
Claims: 


—POSIX_VERSION = 199506 
X/Open 
XOPEN_VERSION = 500 


因此 ， 可 认为 Linux 是 SUS2 系 统 。 但 其 默认 是 SUS1， 因 为 当 根本 不 包含 头 文件 suvreq.h 时 
得 到 的 结果 是 : 


Request: 
POSIX_SOURCE defined 
POSIX_C_SOURCE = 199506 
.-XOPEN_SOURCE undefined 
_-XOPEN_SOURCE_EXTENDED undefined 

Claims: 

-POSIX_VERSION = 199506 
X/Open 
~XOPEN_VERSION = 4 


将 该 输出 与 不 包含 头 文件 时 的 Solaris 系 统 的 输出 进行 比较 ， 这 一 次 Linux 走 在 了 前 面 ， 并 
且 ， 当 包含 头 文件 unistd.h 时 ，Linux 为 我 们 定义 了 _POSIX_SOURCE。 这 可 能 会 有 意义 ， 因 为 


在 POSIX 需 求 中 ， 经 常 要 对 其 进行 定义 。 
其 实 Darwin 才 是 最 谨慎 的 ， 它 仅 声称 符合 POSIX1988 (包含 头 文件 suvreq.h): 


Request: 
-POSIX_SOURCE defined 
~POSIX_C_SOURCE = 199506 
-XOPEN_SOURCE = 500 , 
-XOPEN_SOURCE_EXTENDED defined 

Claims: 


.-POSIX_VERSION = 198808 
Not X/Open 


不 管 怎样 ， 除 根本 就 不 做 任何 请 求 的 FreeBSD 和 Darwin 两 种 系统 外 ， 本 书 中 的 所 有 例子 
代码 都 在 包含 头 文件 suvreq.h 之 前 定义 了 SUV_SUS2。 这 又 带 来 了 一 个 问题 : 如 何 知道 运行 的 
系统 是 FreeBSD 还 是 Darwin 呢 ? (答案 在 1.5.8 节 )。 


1.5.4 检查 选项 
上 文 讲 到 POSIX1996 (IEEE 标 准 1003.1-1996) 中 包含 实时 和 线程 的 内 容 ， 但 这 并 不 意味 
着 遵循 它 的 系统 必须 支持 实时 程序 和 线程 ， 因 为 那些 是 可 选项 。 这 意味 着 如 果 不 支持 ， 这 些 
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系统 必须 采用 某 种 标准 的 方式 对 此 进行 说 明 ， 如 下 面 将 要 解释 的 那样 。 

这 些 和 符号 体系 一 样 都 非常 复杂 ， 而 对 选项 的 内 容 介绍 得 太 少 。 所 以 ， 已 经 将 大 量 附加 符 
号 整个 地 定义 为 选项 组 (例如 线程 、POSIX 消 息 等 )， 其 中 的 一 些 还 定义 为 子 选项 。 这 里 对 它 
们 不 做 一 一 解释 ， 仅 指出 如 何 检查 ， 在 一 般 情况 下 ， 还 会 指出 是 否 支持 某 个 选项 。 由 于 选项 检 
查 规则 非常 复杂 ， 其 涉及 范围 从 POSIX1990 到 SUS1 直 至 SUS3 ， 所 以 这 里 的 解释 经 过 了 一 定 的 
简化 。( 对 选项 更 深入 的 讨论 请 参阅 网 页 [Dre2003]， 文 中 对 相关 的 函数 进行 了 交叉 索引 。) 

在 实际 操作 中 ， 我 遇 到 了 以 下 令 人 不 愉快 的 情况 : 

。 主 要 商业 系统 (如 Solaris) 支持 所 有 的 选项 。 由 于 支持 所 有 的 选项 ， 尽 管 可 以 不 用 检查 

就 能 工作 ， 但 是 它们 还 是 提供 了 能 正确 处 理 选项 检查 符号 的 功能 。 

。 开 源 系统 包括 Linux、FreeBSD 和 Darwin， 趋 向 于 不 支持 许多 选项 ， 因 此 进行 选项 检查 
是 十 分 重要 的 。 然 而 ， 它 们 并 不 能 正确 地 处 理 选项 检查 ， 因 此 所 写 的 检查 代码 经 常 不 起 
作用 。 

很 明显 ， 如 果 OS 开 发 者 不 遵循 当前 标准 ， 想 要 改善 这 种 状况 ， 单 靠 标准 制定 团体 是 毫 无 
办 法 的 。 

不 管 怎样 ， 对 每 一 个 选项 ， 在 头 文件 unistd.h 中 都 定义 了 一 个 预 处 理 符号 。 对 该 符号 进行 测 
试 ,可 以 判断 是 否 支 持 该 选项 。 例如， 对 异步 1O 选 项 , 定义 了 _POSIX_ ASYNCHRONOUS_IO, 
其 中 包含 了 aio_read、aio_write 和 少量 其 他 系统 调用 (详细 介绍 见 第 3 章 )。 如 果 所 编写 的 
程序 中 使 用 了 该 选项 ， 首 先 应 该 对 其 符号 进行 如 下 测试 : 


#if _POSIX_ASYNCHRONOUS_IO <= 0 
/* substitute code, or message, or compile failure with #error */ 


telse 
/* code that uses the feature */ 


#endif 

这 段 代码 意味 着 ， 如 果 未 定义 符号 或 其 值 定义 为 0 或 更 小 的 值 ， 将 不 能 使 用 那些 系统 调用 ， 
而 且 不 能 包含 相关 的 头 文件 (aio.h)。 如 果 定 义 的 符号 值 大 于 0， 则 可 以 假定 总 是 支持 该 特 
t. ° 

某 些 选项 取决 于 所 使 用 的 文件 ， 因 此 其 规则 是 不 同 的 。 例 如 : 如 果 支 持 _POSIX_ 
ASYNCHRONOUS_IO， 那 么 必须 检查 其 子 选项 _POSIX_ASYNC_IO 以 确定 对 于 将 要 使 用 的 文 
件 而 言 是 否 支持 异步 JO。 子 选项 的 规则 随 选项 的 不 同 而 略 有 不 同 ， 但 在 大 多 数 情 况 下 ， 如 果 
选项 是 与 文件 相关 的 ， 则 首先 应 检查 是 否定 义 了 子 选 项 。 如 果 定 义 了 ， 则 值 -1 表示 不 支持 任 
何 文件 ， 其 他 的 值 表示 支持 所 有 文件 。 如 果 没 有 定义 ， 则 必须 调用 pathconf 或 fpathconf 
进行 测试 ( 见 1.5.6 节 )。 

以 上 对 文件 相关 性 选项 规则 的 解释 适用 于 SUS2。 对 于 SUS2 之 前 的 POSIX1993 和 POSIX1996 
来 说 ， 其 规则 是 不 同 的 :如果 没 有 定义 顶层 选项 (如 前 例 中 的 _POSIX_ASYNCHRONOUS_I0)， 
则 仅 需 检查 文件 ， 如 果 定 义 的 值 不 是 -1， 则 可 以 假定 该 选项 支持 所 有 文件 。 

Linux 的 情况 略为 混乱 ， 它 声称 遵循 SUS2， 但 遵循 的 却 是 SUS2 之 前 的 规则 。 

解决 这 种 选项 混乱 的 方法 之 一 是 : 对 要 使 用 的 每 组 可 选 系 统 调用 ， 将 其 选项 检查 封装 为 
一 个 函数 。 例 如 ， 以 下 是 一 个 检测 是 否 支持 异步 /0 函数 的 例子 ， 并 针对 Linux 进 行 了 调整 和 


O 如 上 所 编写 的 检测 代码 过 于 简单 ， 因 为 它 没有 把 未 定义 的 情况 或 值 为 0 的 情况 当 作 特殊 情况 。 对 SUS 的 一 些 
符号 和 版 本 可 以 得 到 头 文件 和 函数 存根 ， 所 以 可 以 在 运行 时 用 sysconf 检 测 。 但 是 有 一 些 系统 ， 如 著名 的 
Linux 系 统 ， 忽 略 了 未 定义 情况 中 的 存根 ， 和 显示 的 检测 结果 一 样 ， 不 能 解释 符号 是 0 的 系统 ， 但 


sysconf 会 报告 说 它 支持 该 特性 。 
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完善 (对 pathconf 的 解释 见 1.5.6 节 ): 


typedef enum {OPT_NO = 0, OPT_YES = 1, OPT_ERROR = -1) OPT_RETURN; 


OPT_RETURN option_async_io(const char *path) 
{ 
#if _POSIX_ASYNCHRONOUS_IO <= 0 
return OPT_NO; 
#elif _XOPEN_VERSION >= 500 && !defined(LINUX) 
#if !defined(_POSIX_ASYNC_IO) 
errno = 0; 
if (pathconf (path, _PC_ASYNC_IO) == -1) 
if (errno == 0) 
return OPT_NO; 
else 
EC_FAIL 
else 
return OPT_YES; 
EC_CLEANUP_BGN 
return OPT_ERROR; 
EC_CLEANUP_END 
#elif _POSIX_ASYNC_IO == -1 
return OPT_NO; 
telse 
return OPT_YES; 
#endif /* _POSIX_ASYNC_IO */ 
#elif _POSIX_VERSION >= 199309L 
return OPT_YES; 
telse 
errno = EINVAL; 
return OPT_ERROR; 
#endif /* _POSIX_ASYNCHRONOUS_IO */ 
) 


注意 ， 使 用 该 函数 无 法 找 出 使 用 某 个 选项 的 代码 能 否 编译 。 由 于 必须 使 用 预 处 理 程序 ， 
所 以 此 后 也 必须 直接 使 用 选项 符号 (如 _POSIX_ASYNCHRONOUS_IO)。 因 此 ， 仍然 需 要 进 
行 如 下 工作 : 


#if _POSIX_ASYNCHRONOUS_IO <= 0 
/* substitute code, or message, or compile failure with #error */ 


#else 
i code that calls option_async_io and uses the 
option if it returns OPT_YES 

PRA 

为 防止 读者 混 消 ， 这 里 重新 表述 如 下 : 选项 _POSIX_ASYNCHRONOUS_IO 是 用 来 测试 系 
统 是 否 整体 上 支持 异步 IO 的 ; 对 于 SUS2 系 统 ， 为 找 出 其 是 否 支持 想 要 使 用 的 特殊 文件 ， 必 须 
接 下 来 检查 _POSIX_RASYNC_IO， 这 可 能 需要 在 运行 时 调用 pathconf 或 fpathconf。 

请 不 要 试图 掌握 所 有 选项 所 对 应 的 符号 一 它们 的 数量 太 多 了 ， 其 中 大 多 数 都 是 根本 用 不 
着 的 ， 而 且 其 应 用 过 程 中 存在 太 多 的 不 规范 。 因 此 ， 对 于 本 书 中 涉及 的 大 多 数 可 选 系统 调用 ， 
将 会 指明 必须 检查 哪些 符号 。S 但 是 ， 在 本 书 示 例 程序 中 通常 不 显示 那些 实际 的 选项 


检查 。 


O 不 要 把 可 选项 和 非 标准 弄 混 了 ， 因 为 可 选项 是 标准 的 。 本 书 中 只 包含 了 一 小 部 分 非 标准 调用 。 
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1.5.5 sysconf 系 统 调用 

sysconf 系 统 调用 ， 不 仅 可 以 用 来 在 运行 时 检查 是 否 支持 可 选 特性 ( 见 1.5.4 节 )， 还 可 
以 用 来 查看 那些 与 各 种 实现 相关 的 限制 ， 如 一 次 可 以 打开 的 文件 数目 。 通 过 联机 资料 或 
[SUS2002] 可 以 看 到 这 些 内 容 的 列表 。 


sysconf 一 一 得 到 系统 选项 或 限制 值 


#include <unistd.h> 


long sysconf{ 
int name /* option or limit name */ 


); 
/* Returns option/limit value or -1 (sets errno on error) */ 





假如 在 代码 编译 时 使 用 了 sysconf， 那 么 唯一 可 能 产生 的 错误 就 是 : 使 用 了 某 个 它 所 不 
了 解 的 符号 。 在 这 种 情况 下 ， 它 将 返回 -1 并 将 errno 设 为 EINVAL。 否 则 ， 如 果 没 有 设置 
errno， 则 返回 值 -1 仅 意味 着 不 支持 该 选项 ， 或 者 如 果 是 在 测试 某 个 限制 ， 则 返回 值 - 1 意味 








着 没有 该 限制 。 因 此 ， 在 调用 sysconf 之 前 ， 必 须 把 errno 设 置 为 0。 同 样 ， 不 要 使 用 
ec_neg1 宏 ， 因 为 它 认 为 所 有 的 返回 值 -1 都 是 错误 的 。 在 下 面 检测 某 个 限制 的 示例 中 ， 自 己 


进行 检测 并 使 用 EC_FRAIL 来 捕获 错误 。(“ec” 相 关 的 解释 见 1.4.2 节 .。) 
long value; 


#if defined (_SC_ATEXIT_MAX) 
errno = 0; 


if ((value = sysconf(_SC_ATEXIT_MAX)) == -1) 
if (errno == 0) 
print£(*max atexit registrations: unlimited\n"); 
else 
EC_PAIL 
else 
printf ("max atexit registrations: #1d\n", value); 
telse 
printf ("_SC_ATEXIT_MAX undefined\n"); 
#endif 
在 Linux 系 统 上 的 输出 为 : 


max atexit registrations: 2147483647 
这 是 long 类 型 所 能 容纳 的 最 大 值 ( 和 标准 C 的 LONG_MAX 符 号 相同 )。 这 意味 着 Linux 可 能 将 
该 注册 信息 保存 在 了 某 个 链表 中 ， 而 不 是 固定 大 小 的 数组 中 。 但 在 FreeBSD 上 运行 时 ， 得 到 
的 结果 是 这 样 的 : 

-SC_ATEXIT_MAX undefined 
这 也 是 正常 的 ， 因 为 该 符号 不 属于 POSIX1990， 正 如 FreeBSD 所 声明 遵循 的 那样 。* 这 里 只 是 
演示 检测 符号 有 否定 义 的 重要 性 。( 由 于 标准 C 规 定 atexit 的 最 小 值 是 32， 所 以 可 以 假定 
FreeBSD 中 的 这 个 数 为 32， 虽 然 这 是 从 C 标 准 中 得 到 的 ， 而 不 是 从 sysconf。) 


1.5.6 pathconf 系 统 调用 和 fpathconf 系 统 调用 


sysconf 只 用 于 检查 系统 范围 内 的 选项 和 限制 。 其 他 的 选项 和 限制 依赖 于 正在 处 理 的 文 
件 ， 为 取得 这 些 选项 和 限制 ， 可 使 用 两 种 非常 近似 的 函数 : pathconf 和 fpathconf。 
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pathconf 一 一 通过 路 径 得 到 系统 选项 或 限制 


#include <unistd.h> 


long pathconf ( 
const char ‘path, /* pathname */ 
int name /* option or limit name */ 


) 
/* Returns option/limit value or -1 (sets errno on error) */ 





fpathconf 一 一 通过 文件 描述 符 得 到 系统 选项 或 限制 


#include <unistd.h> 


long fpathconf ( 
int fa, /* file descriptor */ 
int name /* option or limit name */ 

) 

/* Returns option/limit value or -1 (sets errno on error) */ 





这 两 个 函数 的 第 二 个 参数 以 及 返回 结果 都 是 相同 的 。 当 已 经 存在 一 个 打开 的 文件 时 ， 可 
使 用 fpathconf; 当 存在 一 个 有 路 径 名 的 文件 时 ， 不 管 这 个 文件 打开 与 否 ， 都 可 以 使 用 
pathconf。 可 以 在 [SUS2002] 或 系统 的 联机 资料 中 找到 name 的 有 效 值 。 

对 返回 值 的 解释 和 上 节 中 的 sysconf 的 解释 是 相同 的 。 特 别 的 是 ， 仅 在 errno 的 值 变 为 
( 即 之 前 的 值 不 是 -1) -1 时 才 意味 着 发 生 了 错误 ， 因 此 必须 在 执行 调用 前 将 errno 置 为 0。 本 
书 在 1.5.4 节 中 列 出 了 使 用 pathconf 的 示例 代码 。 


1.5.7 confstr 系 统 调用 
confstr 的 用 法 和 syscont 类 似 ， 但 它 是 用 于 字符 串 值 的 ， 而 不 是 数值 : 
confstr 一 一 得 到 配置 字符 串 
#include <unistd.h> 


size_t confstr( 


int name, /* option or limit name */ 
char *buf, /* returned string value */ 
size_t len /* size of buf */ 


ve 
/* Returns size of value or 0 on error (sets errno on error) */ 





执行 此 调用 时 ， 将 参数 len 设 置 成 buf 参 数 传人 的 缓冲 区 大 小 ; 在 输出 时 ， 它 用 以 NUL 结 
束 的 字符 串 填充 缓冲 区 ， 如 果 没 有 足够 的 空间 放下 整个 字符 串 ， 将 会 对 其 进行 截取 。 返 回 值 
是 整个 字符 串 所 需要 的 大 小 。 如 果 返 回 值 为 0 并 且 改 变 了 errno， 则 表明 出 现 了 错误 。 如 果 没 
有 改变 erzno， 则 意味 着 名 字 是 无 效 的 。 因 此 ， 和 前 面 几 个 函数 相似 ， 在 调用 前 必须 将 
errno# 40. 


1.5.8 检测 特定 的 OS 


虽然 通过 POSIX/SUS 方 式 进行 特征 检测 的 方法 是 最 好 的 ， 但 有 时 确实 需要 知道 所 运行 的 
平台 是 Solaris 还 是 HP/UX、AIX、FreeBSD、Darwin、Linux 还 是 其 他 什么 系统 ， 其 至 有 时 还 


需要 知道 其 主 次 版 本 号 。 在 上 文中 已 有 一 个 示例 : 对 于 FreeBSD 或 Darwin 系 统 不 需要 定义 
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_POSIX_SOURCE。 其 他 的 例子 包括 某 个 OS 存 在 漏洞 ， 或 具有 (如 System VIRB) MUTE 
们 所 声称 遵循 的 标准 的 特性 ( 见 下 节 )。 

对 OS 的 检测 不 存在 捷径 并且 对 菜 些 系统 (如 Solaris) 来 说 ， 连 非 捷径 的 方法 也 没有 。 
对 大 多 数 系统 而 言 ， 一 旦 包含 了 某 个 特定 的 头 文件 ， 就 会 设置 某 个 符号 ， 但 我 们 想 要 在 很 早 
的 时 候 就 进行 OS 检测 ， 其 至 在 包含 头 文件 unistd.h ( 它 通常 是 POSIX 或 标准 C 所 包含 的 第 一 个 
头 文件 ) 之 前 。 因 此 ， 我 们 在 编译 阶段 设置 了 一 个 符号 ， 并 确保 对 于 各 种 不 同 的 系统 来 说 ， 
其 值 是 不 一 样 的 ， 如 下 所 示 : 


$ gcc -DSOLARIS -c xyz.c 


实际 的 命令 行 要 比 上 面 复杂 一 些 ， 并 包含 在 make 文 件 中 ， 但 不 难 理解 。 


1.5.9 额外 特性 

虽然 像 FreeBSD 和 Darwin 之 类 的 系统 在 宣称 其 遵循 POSIX 的 标准 方面 是 非常 保守 的 ， 但 是 
它们 远 比 纯粹 的 POSIX 1988 或 POSIX 1990 系 统 更 加 完善 , 后 两 者 既 不 包含 套 接 字形 式 的 网 络 ， 
也 不 包含 System V IPC。FreeBSD 具 有 的 这 些 特征 ， 其 中 大 多 数 都 达到 了 设想 的 标准 ， 而 且 其 
Buy. © 

对 0S 来 说 ， 想 要 通过 设置 POSIX 级 别 和 选项 符号 来 标明 其 额外 特性 是 行 不 通 的 ， 因 为 其 
一 : 某 些 特 性 ， 例 如 上 文 已 列 出 的 那些 ， 在 SUS3 (如 果 愿 意 ， 可 称 其 为 POSIX2001) 之 前 的 
POSIX 标 准 中 从 未 出 现 过 ; 其 二 : 在 SUS3 中 ， 它 们 不 是 可 选 的 ， 因 此 也 没有 对 应 的 符号 。 
FreeBSD 不 能 通过 宣称 其 遵循 某 个 标准 (如 SUS1) 来 解决 这 个 问题 ， 原 因 即 在 此 。 

同时 ， 当 然 不 想 将 FreeBSD 符 号 的 测试 遍布 在 程序 的 代码 中 ， 因 为 这 并 不 是 我 们 想 要 的 : 
我 们 想 要 的 是 “ 套 接 字 ” 和 “System V IPC"。 不 必要 的 OS 依 赖 性 ， 会 增加 代码 (尤其 是 来 自 
不 同 编程 者 的 代码 ) 移植 的 难度 ， 因 为 移植 者 不 清楚 原 代码 中 进行 OS 依赖 性 测试 的 目的 。 那 
些 将 代码 移植 到 其 他 平台 (如 Linux) 的 人 可 能 是 Linux 的 专家 ， 但 同时 也 可 能 对 于 FreeBSD 的 
特性 一 无 所 知 。 

因此 ， 为 调用 额外 特性 ， 需 要 建立 更 多 的 符号 : 它们 在 某 处 可 能 是 标准 ， 但 并 不 包含 在 
系统 所 声明 遵循 的 标准 中 。 本 书 将 陆续 介绍 这 些 内 容 ， 它 们 可 能 会 在 某 个 例子 程序 中 出 现 ， 
如 下 面 的 代码 行 所 示 : 


#if (defined(_XOPEN_SOURCE) && _XOPEN_SOURCE >= 4) || defined(BSD_DERIVED) 
#define HAVE_SYSVMSG 
#endif 


在 共享 头 文件 ( 见 下 节 ) 中 ， SURE X. T FREEBSDRDARWING 则 要 定义 BSD_DERIVED， 


对 此 的 解释 见 1.5.8 节 。 
人 们 可 以 认为 上 述 工作 是 一 种 “片面 遵循 ”观点 的 形式 化 ， 虽然 这 种 观点 使 标准 制定 者 


倒退 ， 但 却 使 0 实现 者 和 应 用 程序 编写 者 找到 了 本 质 。 
1.6 共享 头 文件 


本 书 中 的 所 有 示例 都 包含 了 共享 头 文件 defs.h， 它 包括 了 对 SUV_SUS2 的 请 求 和 本 书 1.5.3 
节 中 论述 的 头 文件 suvreq.h。 同 时 ， 它 还 包含 了 我 们 通常 需要 的 许多 标准 头 文件 ; 如 果 程序 用 
不 到 它们 ， 也 不 必 担 心包 含 了 多 余 的 内 容 。 在 某 些 较为 少见 的 情况 下 ， 还 需要 包含 另外 一 些 


日 尽管 Mac OS X 10.2.6 中 的 版 本 Darwin 6.6 有 其 他 的 System V IPC 特 性 ， 但 没有 System VIRB. 
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要 使 用 的 头 文件 。defs.h 还 包含 了 几 个 像 syserrmsg ( 见 1.4.1 节 ) 这 样 的 功能 性 函数 的 原型 ， 
对 此 这 里 没有 显示 。 以 下 是 defs.h 的 绝 大 部 分 代码 ， 或 至 少 也 是 其 编写 时 的 内 容 ; 最 新 版 本 在 
网 站 上 [AUP2003]。 


#if defined(FREEBSD) || defined (DARWIN) 
#define BSD_DERIVED 
#endif 


#if !defined(BSD_DERIVED) /* _POSIX_SOURCE too restrictive */ 
#define SUV_SUS2 

#include "suvreq.h* 

#endif 


#ifdef _GNUC_ 
#define _GNU_SOURCE /* bring GNU as close to C99 as possible */ 


#endif 
#include <unistd.h> 


#ifndef _ cplusplus 
#include <stdbool.h> /* C99 only */ 

#endif 

#include <sys/types.h> 

#include <time.h> 

#include <limits.h> 

#ifdef SOLARIS 

#define _VA_LIST /* can't define it in stdio.h */ 
#endif 

#include <stdio.h> 

#ifdef SOLARIS 

#undef _VA_LIST 

#endif 

#include <stdarg.h> /* this is the place to define _VA_LIST */ 
#include <stdlib.h> 

#include <stddef.h> 

#include <string.h> 

#include <ctype.h> 

#include <errno.h> 

#include <fcntl.h> 

#include <assert.h> 

#include "ec.h" 


本 例 代码 三 分 之 二 处 的 #ifdef SOLARIS 就 是 一 个 展示 为 什么 有 时 需要 OS 相关 代码 的 示 
例 。 对 于 “va” 宏 (用 于 C 中 的 变量 参数 列表 ) 究竟 应 属于 stdio h 还 是 stdarg.h， 目 前 还 存在 争 
议 。 对 此 问题 的 处 理 ，Solaris 上 的 gcc 和 其 他 系统 是 不 同 的 。 因 此 ， 为 了 有 效 禁用 stdio.h 中 的 
定义 ， 这 里 使 用 了 一 点 技巧 。 尽 管 这 种 方法 并 不 很 完美 ， 但 在 实在 没有 别 的 办 法 可 行 而 又 必 
须 继续 进行 工作 的 情况 下 ， 使 用 这 种 方法 以 达到 禁用 的 目的 是 值得 的 。 

本 例 include 的 顺序 可 能 有 些 奇怪 ， 本 可 以 按照 字母 排序 的 ， 但 是 本 例 没有 这 么 做 ， 因 为 
在 少数 情况 下 ， 为 了 在 所 有 要 尝试 的 系统 中 都 能 获得 干净 利落 的 编译 结果 ， 需 要 变 戏 法 似 地 
按 依赖 顺序 排列 ， 所 以 本 例 做 了 调查 ， 上 面 看 到 的 就 是 其 最 终 的 调整 结果 。 虽 然 头 文件 可 能 
包含 它 所 依赖 的 其 他 头 文件 ， 不 应 该 是 按 依赖 顺序 排列 的 ， 但 事实 却 不 是 这 样 的 。 


1.7 日 期 和 时 间 
通常 在 UNIX 系 统 中 使 用 两 种 类 型 的 时 间 : 日 历时 间 和 执行 时 间 。 本 节 将 介绍 获取 和 处 理 
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时 间 的 系统 调用 和 函数 。 此 外 ,还 有 可 以 设置 的 内 部 定时 器 ， 这 一 内 容 将 在 9.7 节 中 进行 
讨论 。 
1.7.1 日 历时 间 

日 历时 间 被 用 于 文件 的 访问 、 修 改 和 状态 改变 次 数 ， 具 有 记录 用 户 登 录 时 间 、 显 示 当 前 


日 期 和 时 间 等 一 系列 功能 。 

日 历时 间 通 常 有 以 下 4 种 表示 形式 : 

。 算 术 类 型 time_t， 这 是 一 个 从 UTC (通用 协调 时 间 ) e1970 年 1 月 1 日 午夜 开始 计数 的 

秒 数值 。 将 时 间 存 储 在 文件 中 并 在 函数 中 传递 是 一 种 好 方法 ， 因 为 这 种 方法 占 空间 较 小 

并 且 是 时 区 无 关 的 。 

。 结 构 类 型 struct timeval， 其 时 间 包 含 秒 和 微 秒 。( 既 可 用 于 日 历时 间 ， 也 可 用 于 执 

行 时 间 。) 

。 结 构 类 型 struct tm， 其 时 间 可 分 解 为 

年 、 月、 日 、 时 、 分 、 秒 及 其 他 部 分 。 

。 字 符 申 ， 例 如 : Tue Jul 23 09:44: 

17 2002。 

有 一 整套 库 函 数 可 用 于 在 时 间 的 三 种 形式 
之 间 进 行 转换 ， 其 中 大 部 分 来 自 标准 C。 这 些 
函数 的 命名 十 分 古怪 (而 不 是 简单 的 命名 为 如 
cvt_tm_to_time)， 从 意思 上 根本 讲 不 通 。 
图 1-1 给 出 了 9 种 转换 函数 的 应 用 映射 。 第 10 种 
函数 ，time， 用 来 获取 当前 时 间 。 图 1-1 时 间 转 换 函 数 

下 面 列 出 了 tm 结构 和 timeval 结 构 9 ， 紧 跟 其 后 列 出 的 是 几 个 主要 的 日 历时 间 函 数 的 对 


mez: 四 
struct tm 一 一 分 散 时 间 的 结构 


struct tm { 
int tm_sec; /* second [0,61] (up to 2 leap seconds) */ 
int tm_min; /* minute (0,59] */ 
int tm_hour; /* hour (0,23) */ 
int tm_mday; /* day of month (1,31) */ 
int tm_mon; /* month [0,11] */ 
int tm_year; st years since 1900 +/ 
int tmwday; * day of week [0,6] (0 = Sunday) */ 
int tm_yday; / day of year (0,365) */ 
int tmisdst; /* daylight-savings flag */ 





struct timeval 一 一 gettimeofday 的 结构 


struct timeval { 
time_t tv_sec; /* seconds */ 
suseconds_t tv usec; /* microseconds */ 
di 





日 通用 协调 时 间 原 来 称 作 GMT ( 即 格林 尼 治 标准 时 间 )- 
© 有 一 个 旧 结 构 timeb， 它 以 秒 和 微 秒 为 单位 表示 时 间 ， 可 以 用 旧 函 数 ftime 来 填充 它 ， 而 不 使 用 


gettimeofday. 
© 一 些 标准 C 函 数 也 有 重 入 形式 (例如 ctime_r)， 这 种 形式 不 使 用 静态 缓冲 区 ， 但 本 书 不 包含 这 部 分 内 容 。 
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time 一 一 得 到 当前 日 期 和 时 间作 为 time 


#include <time.h> 












time_t time( 
time_t *t /* NULL or returned time */ 

); 

/* Returns time or -1 on error (errno not defined) 


gettimeofday 一 一 得 到 当前 日 期 和 时 间作 为 imeval 


#include <sys/time.h> 


wa 








int gettimeofday( 
struct timeval *tvalbuf, /* returned time */ 
void *dummy /* always NULL */ 


/* Returns 0 on success or -1 (maybe) on error (may set errno) */ 








localtime 一 一 把 time_t 转 换 成 本 地 分 散 时 间 


#include <time.h> 





struct tm *localtime( 
const time_t *t /* time */ 


/* Returns broken-down time or NULL on error (sets errno) */ 





gmtime 一 一 把 time_t 转 换 成 UTC 分 散 时 间 


#include <time.h> 











struct tm *gmtime( 
const time_t *t /* time */ 


errno) */ 











Returns broken-down time or NULL on error (sets 


mktime 一 一 把 本 地 分 散 时 间 转 换 成 ime 上 


#include <time.h> 













time_t mktime( $ 
Struct tm *tmbuf /* broken-down time */ 


ve 
/* Returns time or -1 on error (errno not defined) */ 


ctime 一 一 把 time_t 转 换 成 本 地 时 间 字 符 串 


#include <time.h> 












char *ctime( r 
const time_t *t /* time */ 






) 3 
/* Returns string or NULL on error (errno not defined) */ 


asctime 一 一 把 分 散 时 间 转换 成 本 地 时 间 字 符 串 9 


#include <time.h> 










char *asctime( í 
const struct tm *tmbuf /* broken-down time */ 


ve A 
/* Returns string or NULL on error (errno not defined) */ 








© 当 SUS 出 错时 ，asctime 不 返回 NULL。 但 无 论 如 何 ， 最 好 还 是 进行 检测 。 


ži 
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strftime 一 一 把 分 散 时 间 转换 成 带 格 式 的 字符 串 
#include <time.h> 


size_t strftime( 
char *buf, output buffer */ 


size_t bufsize, /* size of buffer */ 
const char *format, /* format */ 
const struct tm *tmbuf /* broken-down time */ 


dy 
/* Returns byte count or 0 on error (errno not defined) */ 


wesftime 一 一 把 分 散 时 间 转 换 成 带 格式 的 宽 字 符 串 


#include <wchar.h> 
size_t wesftime( 
wehar_t *buf, /* output buffer */ 
size_t bufsize, /* size of buffer */ 
const wchar_t *format, /* format */ 
const struct tm *tmbuf /* broken-down time */ 


) 7 
/* Returns wchar_t count or 0 on error (errno not defined) */ 


getdate 一 一 用 某 些 规则 把 字符 串 转换 成 分 散 时 间 


#include <time.h> 


struct tm *getdate( 
const char *s /* string to convert */ 

) 

/* Returns broken-down time or NULL on error (sets getdate_err) */ 


strptime 一 一 把 字符 串 转换 成 带 格式 的 分 散 时 间 


#include <time .h> 


char *strptime( 
const char *s, /* string to convert */ 
const char *format, /* format */ 
struct tm *tmbuf /* broken-down time (output) */ 
dM 
/* Returns pointer to first unparsed char or NULL on error (errno not 
defined) */ 





由 上 面 对 照 表 可 以 看 出 ， 在 这 些 函 数 中 都 没有 设置 erzno， 并 且 其 中 大 部 分 甚至 都 不 返 
回 出 错 指示 ， 尽 管 测试 任何 返回 的 指针 是 否 为 NULL 是 一 个 好 主意 。getdate 更 为 奇怪 : 它 
在 错误 发 生 时 将 ( 从 不 在 其 他 地 方 使 用 的 ) 变量 或 宏 getdate_err 的 值 设 置 成 一 个 从 1 到 8 
的 数值 ， 用 以 表明 问题 的 种 类 ; 有 关 细 节 请 参阅 [SUS2002]。 

对 于 time_t， 大 多 数 UNIX 系 统 都 用 1ong 整 型 来 实现 ， 通 常 只 包含 32 位 ( 带 符号 的 ) ; 
因此 按 秒 计 最 大 可 到 2038 年 1 月 19 日 。 某 些 时 候 ， 它 需要 更 多 的 位 数 ， 那 么 需要 将 它 改 成 64 
位 的 。9 为 了 预防 这 种 情况 ， 应 始终 使 用 time_t 类 型 (而 不 是 其 他 类 型 ， 如 1ong 类 型 )， 而 
不 用 假定 time_t 类 型 是 用 什么 实现 的 。 对 历史 时 间 来 说 ，time_t 已 经 不 够 用 了 ， 因 为 在 许 
SREP ERE (HABA) 只 能 到 1901 年 。 

由 于 没有 假定 time_t 类 型 是 用 什么 实现 的 , 所 以 会 给 两 个 这 种 类 型 的 时 间 相 减 带 来 困难 。 
而 这 种 时 间 相 减 又 是 很 常用 的 ， 因 此 提供 了 以 下 专用 函数 : 


日 ”如 果 遵 循 19 年 一 个 版 本 循环 的 话 ， 到 那 时 ， 本 书 的 第 4 版 应 该 出 来 了 。 
© 很 明显 ，64 位 是 太 大 了 。 但 是 对 计算 机 来 说 ，32 后 的 数字 经 常 就 是 64。 
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difftime 一 一 计算 两 个 time_t 值 的 差 


#include <time.h> 


double difftime( 
time_t timel, /* time */ 
time_t timed /* time */ 


1; 
/* Returns timel - time0 in seconds (no error return) */ 





和 time 相 比 ，gettimeofday 的 精度 更 高 ， 但 其 他 函数 没有 把 struct timeval 作 为 
参数 。 然 而 ， 它 们 使 用 tv_sec 字 段 ， 因 为 它 是 time_t 类 型 的 ， 可 以 单独 处 理 微 秒 。 对 于 
tv_usec 类 型 来 说 ， 所 能 做 出 的 全 部 安全 假设 就 是 ， 它 是 某 种 大 小 的 带 符号 整数 。 然 而 ， 它 
没有 理由 超过 32 位 ， 因 为 每 秒 钟 只 包含 1 000 000 微 秒 ， 因 此 为 tv_usec 字 有 段 分 配 一 个 长 整数 
型 就 可 以 了 。 要 获取 某 个 运行 时 间 段 的 间隔 时 间 ， 可 以 两 次 调用 gettimeofday， 然 后 对 
tv_sec 字 段 使 用 daifftime， 对 tv_usec 字 段 只 使 用 减法 。 

某 些 实现 (FreeBSD、Darwin 和 Linux， 不 包括 Solaris) 使 用 gettimeofday 的 第 二 个 参 
数 返 回 时 区 信息 ， 但 这 不 是 标准 的 做 法 。 大 多 数 实现 方案 以 返回 值 -1 表示 出 错 ， 其 至 还 会 设 
置 errno。 其 他 方案 通常 返回 9，， 因 此 在 所 有 情况 下 ， 都 可 以 安全 地 检测 出 返回 的 错误 。 

time_t 通 常用 UTC 来 表示 ， 而 断 开 的 时 间 (struct tm) 和 字符 串 则 既 可 以 用 UTC 表 
示 ， 也 可 以 用 当地 时 间 表 示 。 在 输入 或 输出 时 间 时 使 用 当地 时 间 是 很 方便 的 ， 但 这 会 使 事情 
变 得 复杂 。 这 要 求 必须 采用 某 些 措施 ， 使 得 计算 机 了 解 用 户 所 在 的 时 区 以 及 当前 是 标准 时 间 
还 是 夏 时 制 时 间 。 更 精 的 是 ， 当 输出 过 去 的 时 间 时 ， 计 算 机 必须 推算 那 时 是 标准 时 间 还 是 夏 
时 制 时 间 。 通 过 一 些 和 当地 时 间 相 关 的 函数 ， 可 以 很 好 地 处 理 这 一 问题 。 

用 户 的 时 区 信息 保存 在 环境 变量 zz 中 ， 如 果 没 有 设置 ?2 ， 那 么 将 作为 系统 默认 值 。 为 了 
提供 移植 性 ， 提 供 了 一 个 函数 和 三 个 全 局 变量 来 处 理 时 区 和 夏 时 制 时 间 设置 : 


tzset 一 一 设置 时 区 信息 
#include <time.h> 


extern int daylight; /* DST? (not in FreeBSD/Darwin) */ 


extern long timezone; /* timezone in secs (not in FreeBSD/Darwin) */ 
extern char *tzname[2); /* timezone strings (not in FreeBSD/Darwin) */ 


void tzset (void); 





应 用 程序 可 以 调用 tzset 设 法 得 到 时 区 (从 Tz 或 其 他 地 方 ) 并 设置 三 个 全 局 变量 ， 如 下 
所 示 : 
。 如 果 该 时 区 中 不 应 用 夏 时 制 时 间 , daylight #40 (false), 否则 置 为 非 0 值 (true)。 
转换 周期 按 已 定义 的 实现 方式 内 建 于 库 函 数 中 。 
"timezone 被 置 为 UTC 和 当地 标准 时 间 之 间 的 秒 数 差 值 。( 除 以 3 600 可 以 得 到 小 时 间 的 
差 值 。) 
。tzname 是 包含 两 个 字符 串 的 数组 ，tznamef 0 ] 用 于 在 标准 时 间 中 指明 本 地 的 时 区 ， 
tzname[1] 用 于 指明 夏 时 制 时 间 。 
这 三 个 全 局 变量 在 比 POSIX2002 更 早 的 POSIX 中 是 找 不 到 的 ， 在 FreeBSD 或 Darwin 中 也 没 
有 进行 定义 。 但 通常 并 不 需要 调用 tzset 或 直接 读 取 全 局 变量 ， 仅 使 用 相关 的 标准 函数 就 已 


经 足够 了 。 
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下 面 是 一 个 示例 : 


tzset (); 
print£("daylight = èd; timezone = 1d hrs.; tzname = %s/ts\n", 
daylight, timezone / 3600, tzname(0], tzname(1]); 


其 输出 为 : 

daylight = 1; timezone = 7 hrs.; tzname = MST/MDT 

至 于 如 何 使 用 日 历时 间 函 数 的 详细 内 容 ， 尤 其 是 涉及 格式 化 字符 串 的 内 容 ， 请 参阅 
[SUS2002] 或 浏览 一 本 关于 标准 C 的 好 书 (比如 [Har2002])。 以 下 是 需要 记 住 的 几 点 : 

。 要 忽略 返回 错误 的 可 能 性 ， 可 将 ctime(t) 定 义 为 asctime(1ocaltime(t))。 

。 为 了 克 许 偶尔 漏 掉 的 秒 数 ，tm 结 构 中 的 tm_sec 字 段 的 取 值 可 达到 61 (而 不 是 只 到 59 ) 。 

,tm 结构 中 的 tm_year 字 段 的 取 值 为 与 1900 年 的 差 值 。 它 完全 不 存在 千年 虫 问题 ， 只 是 
看 起 来 特别 一 些 (2002 年 被 表示 为 102)。 

。 同 样 特别 的 是 ，ctime 和 asctime 在 输出 字符 串 的 最 后 都 加 入 了 一 个 换行 符 。 

。 在 几 个 函数 中 都 包含 有 指向 time_t 的 指针 ， 虽 然 按 值 调用 time_t 同 样 会 工作 得 很 好 。 
这 是 一 种 从 最 早期 的 UNIX 遗 留 下 来 的 现象 ， 那 时 C 语 言 还 不 存在 长 整数 类 型 ， 因 此 必须 
输入 由 两 个 16 位 整数 组 成 的 数组 。 

。time 中 的 time_t 指 针 参 数 是 完全 不 需要 的 ， 应 当 设 置 为 NULL。 看 起 来 像 是 为 time 提 
供 了 一 个 可 供 使 用 的 缓冲 区 ， 但 实际 上 并 不 需要 缓冲 区 ， 因 为 返回 的 time_t 是 一 个 算 
术 类 型 。 

。 在 大 多 数 实现 中 ， 上 面 提 及 的 返回 指向 tm 结构 指针 的 函数 ， 其 内 部 都 使 用 静态 缓冲 区 ， 
因此 在 调用 其 他 的 此 类 函数 之 前 ， 请 先 使 用 或 者 复制 其 缓冲 区 的 内 容 。 如 果 需 要 ， 可 以 
在 多 线程 程序 中 使 用 它们 带 有 _z 后 缀 的 重用 形式 。 

。 使 用 格式 的 函数 ， 如 strftime、wcsftime、getdate 和 strptime， 是 非常 复杂 的 ， 
但 也 是 非常 有 用 的 ， 因 此 应 该 掌握 。 前 两 种 在 标准 C 中 ， 后 两 种 在 SUS 中 。 在 FreeBSD 或 
Darwin 中 没有 getdate， 然 而 在 GNU C 库 中 有 它 的 一 个 版 本 ， 如 果 需 要 可 以 进行 安装 。 

。 当 获取 用 户 输入 的 日 期 和 时 间 时 可 使 用 getdate， 当 读 取 包 含 日 期 的 数据 文件 时 可 使 
用 strptime 或 getdate。 原 因 是 strptime 只 能 接受 单一 格式 的 输入 ， 而 对 于 用 户 来 
说 ， 保 证 日 期 和 时 间 的 格式 正确 实在 太 难 了 。getdate 使 用 了 一 个 完整 的 格式 列表 ， 
并 通过 逐 项 比较 来 获得 匹配 。 


1.7.2 执行 时 间 
执行 时 间 是 用 来 测量 时 间 间 隔 、 进 程 执行 的 时 间 以 及 审计 记录 的 。 内 核 自动 记录 每 个 进 
程 的 执行 时 间 。 间 隔 时 间 以 秒 的 各 种 子 级 为 单位 ， 其 范围 从 十 亿 分 之 一 秒 到 百 分 之 一 秒 。 
和 日 历时 间 一 样 ， 执 行 时 间 的 类 型 和 函数 也 容易 造成 混 清 。 先 看 一 下 其 主要 类 型 : 
。clock_t， 这 是 一 个 标准 C 中 的 运算 类 型 (通常 是 一 个 长 整 型 ,但 并 不 保证 都 是 )。 这 
是 一 个 以 CLOCKS_PER_SEC 或 时 钟 滴答 声 为 单位 的 时 间 间 隔 。 
。 结 构 timeval， 以 秒 和 毫秒 为 单位 的 时 间 间 隔 (也 可 以 用 于 日 历时 间 ， 详 细 论 述 见 上 
一 节 )。 
。 结 构 timespec， 以 秒 和 十 亿 分 之 一 秒 为 单位 的 时 间 间 隔 。 
以 下 是 timespec 的 结构 (前 面 已 经 列 出 了 timeval)， 其 定义 位 于 头 文件 <time.h> 中 : 
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struct timespec 一 一 以 秒 和 纳 秒 为 单位 的 时 间 的 结构 


struct timespec { 


time_t tv_sec; /* seconds */ 
long tv_nsec; /* nanoseconds */ 


}; 





主要 有 三 个 函数 可 用 于 测量 时 间 间 隔 : gettimeofday、clock 和 times。 其 中 ， 
gettimeofday 在 上 节 中 已 经 详细 讨论 过 ， 后 两 者 及 times 中 使 用 的 结构 如 下 : 


clock 一 一 得 到 执行 时 间 
#include <time.h> 


clock_t clock(void); 
/* Returns time in CLOCKS_PER_SEC or -1 on error (errno not defined) */ 


times 一 一 得 到 进程 和 子 进程 的 执行 时 间 
#include <sys/times.h> 


clock_t times( 
struct tms *buffer /* returned times */ 


); 
/* Returns time in clock ticks or -1 on error (sets errno) */ 


struct tms 一 一 times 系 统 调用 的 结构 


struct tms ( 
clock_t tms_utime; /* user time */ 
clock_t tms_cutime; /* user time of terminated children */ 
clock_t tms_stime; /* sys time */ 
clock_t tms_cstime; /* sys time of terminated children */ 


de 





times 返 回 从 过 去 某 个 时 间 点 (通常 是 系统 启动 时 间 ) 开始 已 消失 的 时 间 ， 因 此 可 称 为 
“挂钟 ”时 间或 “实时 ”时 间 。 这 和 上 节 中 函数 返回 的 时 间 是 不 同 的 ， 后 者 返回 的 是 从 新 纪元 
(通常 是 1970 年 1 月 1 日 ) 开始 的 时 间 。 

times 使 用 时 钟 滴答 声 作为 单位 ; 使 用 sysconf ( 见 1.5.5 节 ) 得 到 每 秒 中 时 钟 报时 滴答 
声 的 方法 如 下 : 

clock_ticks = sysconf(_SC_CLK_TCK); 

另外 ，times 用 更 多 的 特定 信息 加 载 tms 结 构 : 

*tms_utime (用 户 时 间 ) 是 执行 进程 的 用 户 代码 指令 所 花费 的 时 间 。 它 仅 包括 CPU 时 

间 ， 不 包括 等 待 运行 的 时 间 。 
"tms_stime (系统 时 间 ) 是 代表 进程 执行 系统 调用 所 花费 的 CPU 时 间 。 
“tms_cutime ( 子 用 户 时 间 ) 是 用 户 CPU 时 间 的 总 和 ， 包 括 已 经 终止 的 所 有 进程 的 子 进 
程 所 用 的 时 间 以 及 父 进程 发 出 wait 系 统 调用 所 用 的 时 间 ( 详 见 第 5 章 )。 

“tms_cstime ( 子 系统 时 间 ) 是 所 有 用 来 终止 和 等 待 子 进程 的 系统 CPU 时 间 的 总 和 。 

虽然 clock 的 返回 类 型 和 times 相 同 ， 但 其 值 是 进程 启动 以 来 所 使 用 的 CPU 时 间 ， 而 不 
是 真实 时 间 ， 单 位 由 宏 CLOCKS_PER_SEC 确 定 ， 而 不 是 时 钟 滴答 声 。( 除 单位 不 同 外 ) EF 


于 tms_utime + tms_stime。 
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在 SUS 中 ，CLOCKS_PER_SEC 被 定义 为 ! 000 000 ( 即 微 秒 )， 但 非 SUS 系 统 可 以 使 用 不 
同 的 值 ， 因 此 总 是 使 用 宏 。( FreeBSD 将 CLOCKS_PER_SEC 定 义 为 128; Darwin 定 义 为 100。) 

如 果 clock_t 就 像 常见 的 那样 ， 是 一 个 32 位 的 带 符号 整数 ， 并 以 微 秒 为 单位 ， 虽 然 36 分 钟 
左右 就 循环 一 遍 ， 但 至 少 在 进程 启动 时 clock 才 开始 计时 。times 按 时 钟 滴答 声 进行 工作 ， 可 
以 对 更 长 的 时 间 进 行 计时 ， 但 同时 它 启动 得 更 早 ， 即 如 果 UNIX 系 统 已 经 运行 了 数 周 或 数 月 (这 
通常 很 常见 )， 那 就 更 早 了 ! 但 是 ，32 位 带 符号 的 clock_t 如 果 按 时 钟 滴答 声 进行 工作 ， 那 么 就 
算 250 天 也 循环 不 了 一 遍 ， 因 此 如 果 能 将 系统 设置 为 每 半年 重新 启动 一 次 ， 就 能 解决 这 个 问题 。 

然而 ， 还 不 能 假设 clock_t 就 是 一 个 32 位 的 带 符号 整数 ， 或 者 不 能 假定 是 一 个 带 符号 的 
数 ， 甚 至 也 不 能 假定 是 一 个 整数 。 它 可 能 是 一 个 无 符号 长 整数 型 的 ， 甚 至 可 能 会 是 一 个 双 精 
度 型 的 。 

由 于 times 可 以 一 次 给 出 实际 时 间 和 用 户 及 系统 的 CPU 时 间 ， 所 以 在 本 书 中 将 用 它 对 各 
种 程序 进行 计时 。 下 面 是 要 使 用 的 两 个 方便 的 函数 ， 一 个 用 来 开始 计时 ， 另 一 个 用 来 停止 计 
时 并 输出 结果 : 


#include <sys/times.h> 


static struct tms tbufl; 
static clock_t reall; 
static long clock_ticks; 
void timestart (void) 
t 
ec_negl( reall = times(&tbuf1) ) 
/* treat all -1 returns as errors */ 
ec_negl( clock_ticks = sysconf (_SC_CLK_TCK) ) 
return; 


EC_CLEANUP_BGN 
EC_FLUSH ("timestart"); 

EC_CLEANUP_END 

} 


void timestop(char *msg) 
{ 
struct tms tbuf2; 
clock_t real2; 


ec_negl( real2 = times(&tbuf2) ) 
fprintf(stderr, "%s:\n\t\"Total (user/sys/real)\", %.2f, %.2f, %.2£\n" 
*\t\ "Child (user/sys)\", %.2f, %.2f\n", msg, 
{(double) (tbuf2.tms_utime + tbuf2.tms_cutime) - 
(tbuf1.tms_utime + tbufl.tms_cutime)) / clock_ticks, 
((double) (tbuf2.tms_stime + tbuf2.tms_cstime) - 
(tbuf1.tms_stime + tbufl.tms_cstime)) / clock_ticks, 
(double) (real2 - reall) / clock_ticks, 
(double) (tbuf2.tms_cutime - tbufl.tms_cutime) / clock_ticks, 
(double) (tbuf2.tms_cstime - tbufl.tms_cstime) / clock_ticks); 
return; 


EC_CLEANUP_BGN 
EC_FLUSH(*timestop") ; 

EC_CLEANUP_END 

} 


如 下 例 所 示 ， 在 实际 计时 的 时 候 ， 只 需要 在 间隔 开始 时 调用 timestart， 并 在 结束 时 调 
用 timestop 就 可 以 了 。 为 了 比较 本 例 中 还 包括 了 对 gettimeofday 和 clock 的 调用 : 
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#define REPS 1000000 
define TV_SUBTRACT(t2, t1)\ 
(double) (t2).tv_sec + (t2).tv_usec / 1000000.0 -\ 
((double) (t1).tv_sec + (t1).tv_usec / 1000000.0) 


int main(void) 


int i; 
char msg(100); 
clock_t cl, c2; 
struct timeval tvl, tv2; 
snprintf (msg, sizeof(msg), "td getpids*, REPS); 
ec_negl( cl = clock() ) 
gettimeofday(&tv1, NULL); 
timestart (); 
for (i = 0; i < REPS; i++) 
(void) getpid(); 
(void) sleep (2); 
timestop (msg) ; 
gettimeofday(&tv2, NULL); 
ec_negl( c2 = clock() ) 
printf ("clock(): %.2£\n", (double) (c2 - cl) / CLOCKS_PER_SEC); 
printf ("gettimeofday(): %.2f\n", TV_SUBTRACT(tv2, tvl)); 
exit (EXIT_SUCCESS) ; 


EC_CLEANUP_BGN 
exit (EXIT_FAILURE) ; 
EC_CLEANUP_END 
> 
Linux 系 统 上 的 输出 如 下 (Solaris、FreeBSD 和 Darwin 上 的 输出 与 之 相似 ): 
1000000 getpids: 
“Total (user/sys/real)", 0.72, 0.44, 3.19 
"Child (user/sys)*, 0.00, 0.00 
clock(): 1.16 
gettimeofday(): 3.19 


可 以 看 出 ，clock 的 计时 结果 是 1.16，S 其 恰好 是 0.72 和 0.44 之 和 。 同 时 ，gettimeofday 
的 测量 结果 和 times 相 同 。 这 简直 太 棒 了 ， 否 则 还 要 做 更 多 的 解释 。 
如 果 需 要 的 精度 比 times 所 能 提供 的 高 ， 则 可 以 使 用 getrusage ( 见 5.16 节 )。 


1.8 关于 示例 代码 


本 书 中 有 许多 示例 代码 ， 只 要 按照 常规 ， 比 如 在 手册 及 图 书 的 关于 对 话 框 或 声明 页 中 进 
行 了 版 权 声 明 ， 就 可 以 在 自学 或 商业 产品 中 自由 地 使 用 它们 。 详 细 信 息 请 看 网 页 www. 
basepath.com/aup/copyright.htm 。 

为 了 节省 空间 ， 有 时 对 本 书 的 示例 进行 了 一 些 删节 (例如 本 章 开始 时 的 错误 处 理 代码 和 
defs.h 的 代码 )， 但 其 完整 文件 可 以 在 www.basepath.com/aup/ [AUP2003] 找 到 。( 那里 还 有 许多 
其 他 信息 ， 如 勘误 表 等 . ) 网 上 的 代码 随时 都 在 更 新 ， 比 如 对 出 版 本 书后 发 现 的 一 些 漏洞 进行 
了 更 新 。 因 此 ， 如 果 对 本 书 中 某 些 地 方 是 否 有 误 出 现 迷惑 ， 请 首先 查看 网 上 较 新 的 代码 。 然 
后 ， 如 果 仍然 认为 有 错误 ， 请 发 电子 邮件 到 aup@basepath.com 来 告诉 我 。 如 果 对 本 书 中 所 讲 
述 的 内 容 持 有 不 同 的 观点 或 认为 有 更 好 的 解决 办 法 ， 或 者 只 是 想 告诉 我 这 是 你 读 过 的 最 好 的 


O 在 本 书 的 1985 年 的 版 本 中 ，1000 条 getpids 需 要 1.43 秒 。 
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本 书 的 例子 是 用 C99 编 写 的 ， 由 于 可 以 自己 定义 宏和 typedef ， 所 以 即便 你 的 编译 器 级 
别 不 够 ， 这 些 较 新 的 内 容 (如 intptr_t、bool) 也 不 会 出 现 问题 。 大 部 分 代码 已 经 使 用 
gcc 编 译 器 进行 了 测试 ， 测 试 平台 包括 在 Intel CPU 上 运行 的 SuSE Linux 8.0 (基于 Linux 2.4)、 
FreeBSD 4.6 和 Solaris 8， 以 及 在 基于 PowerPC 的 iMac 上 运行 的 Darwin 6.6 (Mac OS X 10.2.6 
的 UNIX 部 分 )。 随 着 时 间 的 推移 ， 可 以 在 更 多 系统 上 进行 更 多 的 测试 ， 如 果 有 什么 改动 ， 会 


在 网 站 上 公布 。 
1.9 必要 的 资源 


下 面 是 一 些 除 本 书 之 外 必要 资源 的 列表 ， 在 编程 时 可 能 会 用 到 : 

。 所 用 语言 的 优秀 参考 书 。 对 C 来 说 ， 最 好 的 书 是 : Harbison 和 Steele 编 写 的 《a reference 
manual》[Har2002]; 对 C++ 来 说 ， 也 许 是 Bjarne Stroustrup 编 写 的 《The C++ 
Programming Language》[Str2000]。 最 好 是 有 一 本 包含 了 所 有 答案 的 书 ， 即 使 找到 这 样 
的 书 较 困难 。 但 当 得 到 这 样 的 书后 ， 就 不 再 需要 找 其 他 的 书 了 ， 因 此 一 本 书 与 多 本 书 相 
比 不 仅 节 省 了 大 量 时 间 ， 也 节省 了 空间 。 

。Open Group SUS (单一 UNIX 规 范 )， 网 址 为 : www.unix.org/version3 ， 这 是 一 个 极 好 的 
站 点 。 在 左边 框架 点 击 函 数 名 ， 右 边框 架 就 显示 说 明 。 也 可 以 在 CD 或 书 中 获得 这 些 说 
明 ， 但 网 站 上 的 版 本 是 免费 的 。 

。Usenet 新 闻 组 comp.unix.programmer。 可 以 张贴 任何 UNIX 问 题 ， 无 论 多 困难 ， 都 会 得 到 
答案 ， 这 个 答案 也 许 不 正确 ， 但 通常 至 少 可 以 指出 正确 的 方向 。( 为 了 进入 新 闻 组 ， 需 
要 一 个 能 够 处 理 新 闻 组 和 新 闻 信息 包 的 邮件 客户 端 。ISP 可 能 会 提供 ， 如 果 没 有 提供 可 
以 向 www.surpernews.com 或 www.giganews.com 付 费 购买 。 或 者 通过 位 于 
http://groups.google.com/grphp 的 Google Group 访问 。) 也 有 一 些 Web 论 坛 ， 例 如 
www.unix.com， 但 是 它们 不 如 comp.unix.programmer 好 。 只 人 允许 张贴 UNIX (或 者 Linux 
或 者 FreeBSD) 问题 ， 如 果 张 贴 的 是 C 或 C++ 问题 ， 则 会 被 立刻 删除 。 对 那些 题目 有 单 
独 的 新 闻 组 (成 千 上 万 的 新 闻 组 在 一 起 )，Google Group 也 允许 通过 Usenet 档 案 文件 查 
看 20 年 前 父 右 们 是 否 有 人 提 过 相同 的 问题 。 

。Google，Web 搜 索 站 点 。 假 设 sigwait 系 统 调用 在 FreeBSD 上 出 错 了 ， 或 者 不 能 确信 Linux 
是 否 实现 了 异步 1O， 那 么 可 以 按照 次 序 得 到 答案 (例如 从 FreeBSD 或 Linux 站 点 )， 也 可 
以 通过 搜索 获得 答案 。 大 约 有 一 半 时 间 ， 我 想 查 找 的 资料 都 不 是 从 官方 获得 的 ， 而 是 从 
Google 碰 巧 检索 到 的 一 些 无 名 论坛 张贴 或 私人 站 点 得 到 的 。 

。GNU C 库 ,一 个 很 大 的 编码 示例 资源 库 ， 可 以 从 www.gnu.org/software/libc 上 下 载 得 到 。 

。 系 统 的 联机 资料 。 尽 管 查 找 起 来 有 些 不 太 方便 (apropos 命 令 可 以 提供 一 些 帮助 )， 然 

而 一 般 情 况 下 ， 一 旦 找到 正确 的 记录 ， 就 会 受益 匪 线 。 最 好 是 多 花费 点 时 间 掌握 一 个 有 效 使 
用 它们 的 方法 ， 以 便 在 用 到 的 时 候 能 够 得 心 应 手 。 


练习 

1.1 使 用 头 文件 defs.h 编 写 一 个 可 以 显示 “Hello World” 的 C 程 序 ， 其 中 至 少 要 使 用 一 个 错误 检测 宏 ( 例 
如 ec_negl )。 该 练习 的 目的 是 为 了 让 读者 在 系统 上 安装 阅读 本 书 所 需 的 所 有 代码 ， 以 确保 C 编 译 器 
能 够 正常 运行 ， 并 且 确 保安 装 了 所 需要 的 工具 ， 例 如 文本 编辑 器 和 make 工 具 。 如 果 没 有 权限 访问 
UNIX 或 Linux 系 统 ， 那 么 处 理 这 个 问题 也 是 该 练习 的 一 部 分 。 
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12 编写 一 个 程序 ， 用 来 显示 系统 遵从 何 种 POSIX 和 SUS 版 本 ， 并 且 要 满足 不 同 的 请 求 (例如 ， 
SUV_SUS2). 

13 AGAR, ARR RAS AM syscont(h. HBERLE MAA SHI Fm KS 
sysconf 调 用 的 所 有 行 。 

1.4 和 练习 1.3 一 样 ， 但 要 求 显示 的 是 pathconf ， 该 程序 以 路 径 为 参数 。 

1.5 和 练习 1.3 一 样 ， 但 要 求 显示 的 是 confstr。 

1.6 编写 一 个 不 带 命令 行 选项 的 date 命 令 程序 。 为 了 扩大 实用 性 ， 其 控制 的 功能 最 好 尽量 多 。 依 据 SUS 
或 POSIX 中 的 某 个 标准 ， 不 要 抄袭 Gnu 源 代码 或 其 他 类 似 示例 。 


第 2 章 ”基本 文件 MO 系统 调用 


2.1 概述 


本 章 将 讨论 普通 文件 的 基本 IO。 对 于 高 级 文件 、 特 殊 文 件 、 管 道 、 命 名 管道 以 及 套 接 字 
的 IO 系统 将 分 别 在 第 3 章 、 第 4 章 、 第 6 章 、 第 7 章 和 第 8 章 进行 介绍 。 

在 开始 讲解 之 前 ， 首 先 举 一 个 简单 的 例子 ， 其 中 使 用 了 大 家 熟悉 的 4 个 系统 调用 : open. 
read、write 及 close。 此 函数 完成 了 文件 复制 功能 (类似 于 cp 命令 ): 


#define BUFSIZE 512 


void copy(char *from, char *to) /* has a bug */ 
( 

int fromfd = -1, tofd = -1; 

ssize_t nread; 

char buf (BUFSIZE] ; 


ec_negl( fromfd = open(from, O_RDONLY) ) 
ec_negl( tofd = open(to, O_WRONLY | O_CREAT | O_TRUNC. 
S_IRUSR | S_IWUSR) } 


while ((nread = read(fromfd, buf, sizeof(buf))) > 0) 
if (write(tofd, buf, nread) != nread) 
EC_FAIL 
if (nread == -1) 


EC_FAIL 
ec_negi( close(fromfd) ) 
ec_negl( close(tofd) ) 
return; 


EC_CLEANUP_BGN 
(void) close(fromfd); /* can't use ec_negl here! */ 
(void) close (tofd) ; 

EC_CLEANUP_END 

} 


根据 1.4.1 节 中 的 提示 ， 试 着 找 出 此 程序 中 的 bug。 如 果 找 不 到 ， 可 以 查看 2.9 节 。 

下 面 简单 介绍 此 函数 ， 在 以 后 的 章节 中 还 将 对 其 做 详细 的 论述 。 第 一 个 open 调 用 以 读 方 
式 打开 输入 文件 (0_RDONLY 标 志 )， 并 返回 一 个 文件 描述 符 用 于 随后 的 系统 调用 。 第 二 个 
open 调 用 实现 如 下 功能 .如 果 文 件 不 存在 ， 就 创建 一 个 新 文件 (0_CREAT 标 志 )， 否 则 将 文 
件 长 度 截 短 为 0 (0_TRUNC 标 志 )。 不 论 发 生 哪 种 情况 ， 都 以 可 写 方式 打开 文件 ， 并 返回 一 个 
文件 描述 符 。open 的 第 三 个 参数 规定 了 新 建文 件 的 使 用 权限 ( 一般 只 希望 文件 所 有 者 才 有 读 
写 文件 的 权利 )。read 将 按照 第 三 个 参数 给 定 的 字 节 数 把 数据 读 人 第 二 个 参数 指定 的 缓冲 区 ， 
返回 结果 为 读 人 的 字 节 数 、 文 件 结尾 标志 0 或 者 错误 标志 -1。write 从 第 二 个 参数 指定 的 组 
冲 区 中 写 人 第 三 个 参数 给 定 的 字 节 数 ， 返 回 结果 为 写 人 的 字 节 数 ， 如 果 返 回 的 字 节 数 与 要 求 
写 人 的 字 节 数 不 相 等 ， 则 认为 写 入 出 错 。 最 后 ，close 关 闭 文件 描述 符 。 

这 里 没有 使 用 if 语句 ，fprintf 调 用 以 及 goto 等 处 理 错误 ， 而 是 使 用 了 方便 的 宏 
ec_negl 和 EC_FAIL， 当 ec_neg1 的 参数 是 -1 时 ， 对 函数 进行 错误 处 理 ， 而 EC_FAIL 则 总 
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是 按 错误 处 理 函数 。( 实际 上 ， 它 们 是 跳 转 到 清除 代码 ， 这 些 代 码 通过 EC_CLEANUP_BGN 和 
EC_CLEANUP_END 界 定 ， 在 此 程序 中 没有 定义 任何 内 容 。 ) 1.4.2 节 对 以 上 内 容 作 了 介绍 。 


2.2 文件 描述 符 及 打开 文件 描述 


每 一 个 UNIX 进 程 都 有 一 个 文件 描述 符 范围 ， 其 大 小 为 0 到 N，N 标 志文 件 描述 符 的 最 大 数 。 
N 的 大 小 取决 于 UNIX 的 版 本 以 及 系统 配置 ， 但 一 般 最 小 为 16， 目 前 UNIX 系 统 中 此 数值 更 大 ， 
为 了 发 现 系 统 运行 的 实际 N 值 ， 可 以 调用 带 有 参数 _SC_OPEN_MAX sysconf ( 见 1.5.5 节 )， 
其 代码 如 下 : 

printf ("_sc_OPEN_MAX = %ld\n", sysconf (_SC_OPEN_MAX) ) ; 

在 Linux 系 统 中 ，N 值 为 1024， 在 FreeBSD 系 统 中 ，N 值 为 957， 在 Solaris 系 统 中 ，N 值 为 
256。 目 前 除了 供 入 式 操 作 系 统 外 ， 大 概 没有 N 值 为 16 的 系统 了 。 


2.2.1 标准 文件 描述 符 

按照 惯例 ， 进 程 开始 运行 时 前 三 个 文件 描述 符 就 已 经 打开 了 。 文 件 描述 符 0 是 标准 输入 ， 
文件 描述 符 1 是 标准 输出 ， 文 件 描述 符 2 是 标准 错误 输出 ， 并 且 文 件 描述 符 2 对 控制 终端 常常 是 
打开 的 。 除 了 使 用 数字 之 外 ， 最 好 使 用 符号 常数 STDIN_FILENO、STDOUT_FILENO 和 
STDERR_FILENO. 

UNIX 过 恋 程 序 从 sTDIN_FILENO 文 件 中 读 取 数据 ， 并 向 STDOUT_FILENO 文 件 写 人 数 
据 ; shell 命 令 在 管道 操作 中 使 用 此 种 方式 .因为 写 入 STDOUT_FILENO 的 任何 内 容 都 有 可 能 
转 入 管道 或 者 文件 ， 而 且 从 来 不 会 发 现 输出 重 定向 。( 通 过 shell 实 现 输出 重 定向 是 最 常见 的 ， 
因此 STDERR_FILENO 应 该 用 于 保存 重要 信息 .) 

这 些 标准 文件 描述 符 中 任何 一 个 都 可 打开 文件 、 管 道 、FIFO、 设 备 甚至 是 套 接 字 。 最 好 
以 一 种 不 依靠 于 目的 或 源 的 类 型 的 方式 编程 ， 但 有 的 时 候 不 能 实现 。 如 对 于 屏幕 编辑 器 来 说 ， 
如 果 标 准 输出 不 是 终端 设备 ， 它 也 许 不 能 正常 工作 。 

调用 read 和 write 时 可 以 立即 使 用 这 三 个 标准 文件 描述 符 。 用 于 文件 、 管 道 等 其 他 的 文 
件 描 述 符 可 以 通过 进程 本 身 获得 。 父 进程 传递 给 子 进程 的 不 只 是 这 三 个 标准 文件 描述 符 ， 具 
体内 容 会 在 第 6 章 讨论 管道 和 进程 的 关系 时 予以 阐述 。 


2.2.2 应 用 文件 描述 符 

通常 情况 下 ，UNIX 可 以 像 操作 文件 一 样 操作 文件 描述 符 ， 因 此 可 以 对 其 进行 读 操作 、 写 
操作 或 者 读 写 操作 。 文 件 描述 符 不 能 应 用 于 与 文件 无 相似 方面 的 通信 机 制 ， 如 消息 队列 ， 
为 不 能 对 它们 进行 读 写 操作 (对 此 有 专门 的 调用 )。 

只 有 几 种 方法 可 以 得 到 新 的 打开 文件 描述 符 ， 对 此 我 们 现在 不 做 深入 的 研究 ， 但 知道 以 
下 内 容 是 有 益 的 : 

*open: 用 于 打开 大 多 数 具 有 路 径 名 的 文件 ， 包 含 普 通 文件 、 特 殊 文件 以 及 命名 管道 

(FIFO). 

spipe: 用 于 创建 和 打开 非 命名 管道 (第 6 章 )。 

。socket、accept 和 connect: 用 于 网 络 操 作 (第 8 章 )。 

在 C 中 没有 规定 文件 描述 符 的 类 型 〈 像 进程 ID 一 样 )、 因 此 仅 使 用 普通 的 int。S 


O 我 最 初 想 在 本 书 中 介绍 fid_t 类 型 以 使 书 中 的 例子 更 具 可 读 性 ， 但 后 来 我 决定 不 这 么 做 ， 因 为 在 实际 的 
代码 中 可 以 使 用 普通 的 int 类 型 ， 因 此 不 必 熟 悉 它 - 
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223 打开 文件 描述 和 共享 

如 第 1 章 所 述 ， 文 件 描述 符 只 是 对 每 个 进程 表 的 索引 。 进 程 表 中 每 个 记录 项 指向 一 个 全 系 
统 的 打开 文件 描述 (也 就 是 众所周知 的 文件 表 记录 项 )， 接 着 文件 描述 指向 文件 数据 (通过 信 
息 节 点 的 内 存 复制 )。 如 图 2-1 所 示 ， 多 个 文件 描述 符 ， 甚 至 来 自 不 同 进程 的 文件 描述 符 都 可 
以 指向 同一 个 文件 描述 。 





打开 文件 描述 1 
(文件 偏 移 量 、 状 
态 、 访 问 模式 ) 











信息 节点 
(内 存 复制 ) 









打开 文件 描述 2 
(文件 偏 移 量 、 状 
态 、 访 问 模式 ) 















图 2-1 文件 描述 符 、 打 开 文 件 描述 符 和 信息 节点 


每 一 个 open 或 pipe 系 统 调用 都 会 创建 一 个 新 的 打开 文件 描述 和 新 的 文件 描述 符 。 在 图 
中 进程 A 两 次 打开 了 同一 个 文件 ， 得 到 了 文件 描述 符 5 和 6， 并 创建 了 打开 文件 描述 1 和 2。 接 
着 通过 文件 描述 符 复制 机 制 (通过 dup、dup2 和 fork 系 统 调用 实现 )， 进 程 A 得 到 了 文件 描 
述 符 5 的 复制 品 文件 描述 符 7， 这 意味 着 它 指向 的 打开 文件 描述 与 文件 描述 符 5 的 是 相同 的 。 进 
程 B 是 进程 A 的 子 进程 ， 并 且 文 件 描述 符 3 同样 是 文件 描述 符 5 的 复制 品 。 

我 们 一 再 引用 图 2-1， 因 为 通过 它 可 以 了 解 很 多 信息 。 例 如 ， 在 2.8 节 讲解 文件 偏 移 量 时 ， 
我 们 会 看 到 ， 由 于 进程 A 的 文件 描述 符 5 和 7 及 进程 B 的 文件 描述 符 3 共享 同一 个 打开 文件 描述 ， 
它们 将 共享 同一 个 文件 偏 移 量 。 


2.3 文件 权限 位 符号 


回顾 1.15 节 ， 可 以 知道 文件 具有 9 种 权限 位 : 其 包括 三 种 用 户 类 型 (所 有 者 、 组 和 其 他 用 
户 ) 和 三 种 访问 权限 ( 读 、 写 和 执行 文件 ) 的 组 合 。 在 1s 命 令 的 输出 中 ， 总 可 以 看 到 这 9 个 文 
件 权 限 位 : 

-IWXr-xr-x 1 marc users 29808 Aug 4 13:45 hello 

所 有 人 都 认为 这 9 个 文件 权限 位 应 该 在 一 起 ， 并 有 一 定 的 顺序 (所 有 者 、 组 和 其 他 用 户 )， 
但 实际 上 并 不 必 如 此 ， 只 要 有 这 9 个 权限 位 即 可 。 因 此 从 POSIX1988 时 起 ， 就 有 了 权限 位 符号 ， 
用 于 替代 传统 的 八进制 数 表示 。 这 些 符号 的 形式 为 S_Ipwww， 其 中 ，P 代 表 访 问 权限 (R, W 
或 X)，WWW 代 表 谁 操作 (USR、GRP 或 oTH)。 这 就 表示 出 了 全 部 的 9 个 符号 。 

例如 ， 对 于 上 述 文件 ， 不 用 八进制 的 755， 可 用 符号 表示 如 下 : 


S_IRUSR | S_IWUSR | S_IXUSR | S_IRGRP | S_IXGRP | S_IROTH | S_IXOTH 
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当 USR、GRP 或 OTH 拥 有 所 有 三 种 访问 权限 时 ， 它 们 将 使 用 单独 的 符号 ， 这 些 符号 具有 
如 下 形式 : S_IRNWXw， 这 里 w 是 “whom” 的 第 一 个 字母 ， 可 以 是 0 或 6， 也 可 以 是 0。 因 此 可 
以 按 如 下 方式 写 文件 访问 权限 : 

S_IRWXU | S_IRGRP | S_IXGRP | S_IROTH | S_IXOTH 

FRAG He PRR Fy KEE Ro AT AT RHEE E, HELL BLE AD CR EG, ALR EE TL 
自由 安排 权限 位 的 位 置 。 因 为 在 编写 程序 时 可 能 仅 使 用 一 些 组 合 (例如 ， 可 能 一 次 只 用 其 创 
建 的 1 个 或 2 个 数据 文件 ， 或 者 是 创建 的 某 个 目录 )， 所 以 最 好 是 一 次 性 就 定义 好 所 需 的 宏 ， 而 
不 是 在 所 有 的 位 置 都 使 用 长 的 $_I* 符 号 序列 。 在 本 书 中 ， 我 们 只 使 用 了 下 列 定义 ， 它 们 被 包 
含 在 了 defs.h 文 件 中 ( 见 1.6 节 ): 


#define PERM DIRECTORY  S_IRWXU 
#define PERM_FILE (S_IRUSR | S_IWUSR | S_IRGRP | S_IROTH) 


注意 ， 要 根据 所 使 用 的 情况 定义 宏 ， 而 不 是 依据 权限 位 。 因 此 采用 PERM_FILE 方 式 定义 
宏 ， 而 不 再 采用 PERM_RWURGO 形 式 定义 文件 权限 位 ， 因 为 这 样 仅 需 改变 一 次 宏 ， 就 可 以 改 
变 整个 应 用 程序 的 访问 权限 策略 。 


2.4 open 和 creat 系 统 调用 
open 一 一 打开 或 创建 文件 


#include <sys/stat.h> 
#include <fcnt1.h> 


int open( 


const char *path, /* pathname */ 
int flags, /* flags */ 
mode_t perms /* permissions (when creating) */ 


ve 
/* Returns file descriptor or -1 on error (sets errno) */ 





我 们 可 以 使 用 open 打 开 一 个 已 经 存在 的 文件 (普通 文件 、 特 殊 文件 或 命名 管道 )， 或 创 
建 一 个 新 文件 ， 但 它 只 能 创建 普通 文件 。 创 建 特殊 文件 需 使 用 mknod ( 见 3.8.2 节 )， 命 名 管道 
使 用 mkfifo ( 见 7.2.1 节 )。 文 件 一 旦 打开 ，read、write、lseek、close 以 及 其 他 调用 


就 可 以 使 用 返回 的 文件 描述 符 值 ， 至 于 其 他 调用 将 在 以 后 的 章节 中 进行 讨论 。 


2.4.1 打开 已 存在 文件 

首先 讨论 如 何 打开 一 个 由 path 指 定 的 已 经 存在 的 文件 。 如 果 f1ags 的 值 是 0_RDONLY， 
就 以 只 读 方式 打开 文件 ; 如 果 是 0_WRONLY， 就 以 只 写 方式 打开 文件 ; 如 果 是 0_RDWR， 就 以 
读 写 方式 打开 文件 。8 

使 用 1.1.5 节 中 说 明 的 算法 ， 进 程 需要 读 、 写 或 读 写 以 及 打开 文件 的 许多 种 权限 。 例 如 ， 如 
果 进 程 的 有 效用 户 ID 与 文件 的 所 有 者 相 匹配 ， 就 一 定 要 设置 文件 所 有 者 的 读 、 写 或 读 写 权 限 位 。 

对 于 一 个 已 经 存在 的 文件 ,参数 perms 是 没有 用 的 ， 通 常 将 其 省 略 ， 因 此 调用 open 时 只 
有 2 个 参数 。 


O 一 个 技术 评论 员 指出 ， 即 使 采用 八进制 数 ， 内 核 也 可 以 将 其 映射 为 内 部 正在 使 用 的 文件 系统 。 
© 为 什么 有 3 个 参数 ? 我 们 可 以 忽略 0_RDWR 参 数 ， 而 只 使 用 0_RDONLY 或 0_WRONLY 吗 ? 不 行 ， 因 为 实现 已 


经 将 0_RDONLY 定 义 为 0， 而 不 是 某 个 位 。 
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文件 偏 移 量 ( 读 和 写 文件 用 到 的 ) 位 于 文件 的 第 一 个 字 节 。 更 多 详细 内 容 见 2.8 节 。 

下 面 是 打开 一 个 已 存在 文件 的 程序 代码 : 

int fd; 

ec_negl( fd = open(*/home/marc/oldfile*, O_RDONLY) ) 

open 失 败 的 原因 很 多 ， 大 多 数 情况 下 系统 将 告诉 用 户 错误 所 在 。 当 一 个 路 径 指向 一 个 不 
存在 的 文件 时 (ENOENT) 会 出 现 错误 ， 此 时 所 需 的 解决 方案 与 访问 权限 (EACCES) 出 现 错 
误 时 所 需 的 是 不 同 的 。 我 们 的 普通 错误 检测 和 错误 报告 对 此 控制 得 很 好 ( 宏 “ec” 见 1.4.2 节 )。 

open 成 功 时 返回 的 文件 描述 符 是 一 个 可 用 的 最 小 整数 ， 正 常情 况 下 用 户 不 必 关 心 此 数 。 
但 有 时 这 个 数 是 有 用 的 ， 当 需要 重 定向 某 个 标准 文件 描述 符 9、1、2 时 ( 见 2.2.1 节 )， 用 户 首 
先 关闭 需要 重 定向 的 文件 ， 随 后 打开 该 文件 时 就 需要 刚才 得 到 的 这 个 整数 (例如 1 )。 


2.4.2 创建 新 文件 

当 文 件 不 存在 时 ， 如 果 用 OR 操作 向 open 里 的 flags 中 加 入 标志 0_CREAT， 那 么 open 将 创 
建 一 个 新 文件 。 当 然 这 样 可 以 创建 一 个 新 的 只 读 文件 ， 但 没有 任何 意义 ， 因 为 如 上 创建 的 新 
文件 没有 任何 可 读 内 容 。 因 此 一 般 需 要 O_CREAT 与 0_WRONLY 或 0_RDWR 一 起 使 用 。 现 在 用 
得 着 参数 perms 了 ， 如 下 例 所 示 : 

ec_negl( fd = open(*/home/marc/newfile”, O_RDWR | O_CREAT, PERM_FILE) ) 

参数 perms 仅 在 创建 新 文件 时 有 效 。 对 于 一 个 已 经 存在 的 文件 ， 它 没有 任何 作用 。 

新 建文 件 的 权限 位 是 系统 调用 中 的 权限 位 和 进程 文件 方式 创建 屏蔽 字 的 补 码 进行 与 操作 
的 结果 ， 典 型 情况 是 登录 时 设置 (通过 umask 命 令 )， 或 者 umask 系 统 调用 〈 见 2.5 节 )。 “对 补 
码 进行 与 操作 ”是 指 文件 方式 屏蔽 字 中 设置 的 权限 位 将 清除 文件 相应 的 权限 位 。 因 此 ， 即 使 
调用 带 有 标志 S_IWOT8 的 open，002 屏 蔽 字 也 会 致使 s_IWOTH 位 (其 他 用 户 写 权限 ) 清除 。 
然而 作为 一 个 程序 员 ， 通 常 不 必 关 心 此 屏蔽 字 ， 因 为 它 是 用 户 限制 访问 权限 时 使 用 的 。 

如 果 用 带 有 标志 0O_WRONLY 或 0_RDWR 的 open 创 建文 件 ， 但 权限 位 不 允许 写 会 怎么 样 ? 
因为 它 是 一 个 新 文件 ， 所 以 仍 可 以 进行 写 操作 ， 然 而 ， 当 下 次 打开 它 时 ， 它 已 经 存在 ， 这 时 
权限 位 将 按照 上 节 讲述 的 那样 控制 访问 。 

用 户 有 时 需要 一 个 新 的 、 没 有 任何 数据 的 文件 。 也 就 是 说 ， 如 果 文 件 已 经 存在 ， 需 要 将 
其 所 有 数据 清除 ， 并 置 文件 偏 移 量 为 0。 标 志 0_TRUNC 可 以 实现 此 功能 : 

ec_negl( fd = open("/home/marc/newfile*, O_WRONLY | O_CREAT | O_TRUNC, 

PERM_FILE) ) 


因为 0_TRUNC 能 够 破坏 数据 ， 所 以 只 要 进程 具有 写 权 限 ， 就 可 以 清除 已 存在 文件 的 数据 ， 
因为 它 是 写 形 式 的 一 种 。 但 对 于 具有 0_RDONLY 标 志 的 文件 ， 它 就 不 起 作用 了 。 

对 于 一 个 新 文件 ( 即 用 0_CREAT 创 建 的 )， 因 为 需要 为 新 文件 创建 一 个 新 链接 ， 所 以 需要 
在 父 目录 中 为 其 设置 写 权 限 。 对 于 一 个 已 存在 文件 来 说 ， 目 录 中 的 权限 已 无 关 紧 要 了 ， 它 依 
赖 的 是 文件 的 权限 。 你 可 能 要 自问 ,“ 如 何 完 成 这 些 操作 呢 ?” 

也 许 还 需要 说 一 下 ， 有 时 需要 在 路 径 ( 即 home 和 marc) 的 中 间 目 录 上 搜索 (执行 ) 文 
件 权限 。 然 而 通常 也 可 应 用 到 路 径 的 任何 地 方 ， 以 后 不 再 重复 说 明 。 

0_TRUNC 不 必 与 0_CREAT 同 时 使 用 ， 其 实际 上 是 当 文 件 存在 时 ， 将 文件 长 度 截 为 09， 如 
果 文 件 不 存在 ， 则 操作 失败 (如 创建 了 日 志文 件 ， 则 可 以 具有 日 志 特 征 ; 如 果 没 有 日 志文 件 ， 


将 不 存在 日 志 功能 )。 
O_WRONLY |0_CREAT | 0_TRUNC 这 个 组 合 是 很 常见 的 (“创建 或 截 短 一 个 具有 只 写 权限 
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的 文件 ")， 以 致 于 具有 专门 的 系统 调用 实现 此 功能 : 
ereat 一 一 创建 或 清空 文件 以 便 写 人 


#include <sys/stat.h> 
#include <fcntl.h> 


int creat( 
const char *path, /* pathname */ 
mode_t perms /* permissions */ 


Ve 
/* Returns file descriptor or -1 on error (sets errno) */ 





采用 open 打 开 一 个 已 经 存在 的 文件 只 需要 第 一 个 参数 和 第 二 个 参数 (Path 和 flags) ; 
使 用 creat 创 建新 文件 仅 需要 第 一 个 参数 和 第 三 个 参数 。 实 际 上 ，creat 仅 仅 是 一 个 宏 : 

#define creat(path，perms) open(path, O_WRONLY | O_CREAT | O_TRUNC, perms) 

为 什么 不 能 忽略 creat ， 而 仅 使 用 open 呢 ? 这 样 不 就 无 需 记 忆 两 个 系统 调用 ， 而 且 标志 
也 总 能 描述 得 很 清楚 了 吗 ? 这 是 个 好 注意 ， 因 此 这 本 书 将 只 使 用 open。9 

在 创建 新 文件 时 ， 我 们 跳 过 了 一 个 重要 的 内 容 : 谁 是 新 文件 的 所 有 者 ? 回顾 1.1.5 节 ， 可 
以 知道 每 一 个 文件 都 有 一 个 所 有 者 用 户 ID 和 一 个 所 有 者 组 ID ， 我 们 简称 所 有 者 和 组 。 下 面 是 
如 何 为 新 文件 设置 所 有 者 和 组 的 方法 : 

。 所 有 者 通过 进程 的 有 效用 户 ID 设置 。 

。 组 可 以 被 设置 成 父 目 录 的 组 ID ， 也 可 以 被 设置 成 进程 的 有 效 组 ID 。 

尽管 可 以 通过 stat 系 统 调用 ( 见 3.5.1 节 ) 寻找 组 ID 使 用 的 方法 ， 但 是 应 用 程序 不 能 设 定 
组 ID 使 用 哪 种 方法 ， 也 不 能 使 用 chown 系 统 调用 ( 见 3.7.2 节 ) 强制 组 ID 使 用 它 需要 的 方法 。 
根本 上 很 少 有 应 用 程序 关心 组 ID 。 

还 有 另 一 个 标志 0_EXCL， 它 和 0_CREAT 标 记 一 起 使 用 时 ， 如 果 文 件 存 在 ， 则 创建 文件 
操作 将 失败 。 如 果 没 有 使 用 0_CREAT 标 志 的 open 是 “文件 存在 则 打开 文件 ， 文 件 不 存在 则 
打开 失败 ”的 话 ， 那 么 使 用 了 0_CREAT | 0_EXCL 标 志 的 open 的 执行 结果 就 会 正好 相反 ，“ 文 
件 不 存在 ， 则 创建 文件 ， 否 则 失败 ”。 

0_EXCL 的 一 个 有 趣 用 法 是 将 文件 当 作 锁 ， 下 一 节 将 对 此 做 以 介绍 。 另 一 个 用 法 是 针对 应 
用 程序 退出 时 要 删除 的 临时 文件 的 。 如 果 应 用 程序 发 现 临 时 文件 已 经 存在 ， 那 么 这 意味 着 前 
面 的 调用 已 经 异常 终止 了 ， 因 此 需要 采取 一 定 的 清理 或 补救 措施 。 这 种 情况 需要 创建 失效 ， 
这 正好 是 0_EXCL 参 数 可 以 完成 的 工作 : 

int fd; 

while ((£d = open("/tmp/apptemp", O_RDWR | O_CREAT | O_TRUNC | O_EXCL, 

PERM_FILE)) == -1) { 
if (errno == EEXIST) { 
if (cleanup_previous_run()) 


continue; 
errno = EEXIST; /* may have been reset */ 


) 
EC_FAIL /* some other error or can't cleanup */ 


} 
/* file is open; go ahead with rest of app */ 


在 调用 open 时 ， 我 们 不 想 使 用 ec_neg1 宏 ， 因 为 我 们 想 亲 自 调查 errno。 值 EEXIST 是 


O 如 果 你 对 历史 感 兴趣 ， 就 会 知道 ，creat 实 际 是 一 个 很 老 的 系统 调用 ,在 早期 的 open 仅 有 两 个 参数 时 ， 
它 是 很 重要 的 。 
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专门 针对 0_EXCL 情 况 的 。 调 用 某 个 名 为 cleanuP_previous_run 的 函数 (没有 给 出 实现 
代码 ) 循环 检测 清理 工作 是 否 已 经 完成 ， 这 就 是 存在 while 循 环 的 原因 。 如 果 没 有 完成 ， 注 
意 我 们 重 置 了 errno 选 项 ， 由 于 其 变化 很 大 ， 而 且 可 能 包含 了 上 千 条 代码 ， 所 以 很 难 知道 
cleanup_previous_run 函 数 所 做 的 工作 。( 我 们 本 可 以 仅 使 用 有 两 次 迭代 的 for 循 环 来 实 
现 ， 而 不 使 用 while， 当 函数 cleanup_previous_run 的 返回 结果 为 true 时 ， 执 行 循环 ， 
但 当 链 接 文件 失败 时 ， 退 出 循环 ， 因 而 能 够 明白 程序 的 执行 情况 。) 

如 果 有 两 个 不 同 的 用 户 并 发 运行 上 面 那个 例子 所 示 的 应 用 程序 ， 那 么 就 会 出 现 混乱 。 这 
时 ， 创 建 临 时 文件 的 意义 很 大 ， 解 除 与 临时 文件 的 链接 将 是 错误 的 。 如 果 克 许 并 发 运行 应 用 
程序 ， 则 需要 重新 设计 程序 ， 以 便 每 个 执行 过 程 都 有 一 个 唯一 的 临时 文件 ，2.7 节 将 对 此 进行 
介绍 。 如 果 想 彻底 阻止 并 发 运行 应 用 程序 ， 则 需要 采用 加 锁 机 制 ， 下 节 将 对 此 进行 介绍 。 


2.4.3 用 文件 当 锁 

当 某 些 进程 需要 以 独占 方式 访问 系统 资源 时 ， 将 遵循 以 下 协议 : 在 访问 资源 前 ， 使 用 一 
个 一 致 同意 的 文件 命名 约定 ， 用 O_EXCL 创 建 一 个 文件 。 它 们 中 只 有 一 个 能 成 功 创建 文件 ， 其 
他 进程 的 open 操 作 都 将 失败 。 那 些 失 败 进程 要 么 等 待 随后 再 次 尝试 ， 要 么 放弃 。 当 成 功 创建 
文件 的 进程 使 用 完 资 源 后 ， 将 释放 链接 。 其 中 一 个 先前 没有 成 功 访问 的 进程 将 再 次 进行 open 
操作 ， 并 可 以 安全 进行 。 

为 了 完成 这 项 工作 ， 检 查 文件 是 否 存在 (例如 用 access， 见 3.8.1 节 ) 以 及 创建 文件 的 操 
作 必 须 是 原子 操作 (不 可 分 )， 中 间 不 允许 插入 其 他 任何 进程 ， 或 者 说 只 有 在 第 一 个 进程 完成 
了 对 文件 的 检查 之 后 才能 创建 该 文件 。 因 此 不 能 如 下 这 样 操作 : 


if (access( - ) == 0) /* file does not exist */ 
m OPEN (we ) ~ /* create it */ 
而 是 需要 采用 更 可 靠 的 方式 保证 原子 操作 。 


一 个 像 这 样 的 简单 相互 排斥 机 制 称 做 互 斤 (mutex) (相互 排斥 的 简称 )、 二 元 信号 重 ( 计 
数 只 能 到 1) 或 镇 。 本 书 中 将 多 次 提 到 这 些 内 容 ， 摘 要 内 容 见 1.1.7 节 。 在 UNIX 领 域 中 ，“ 互 斥 ” 
一 词 经 常 被 用 于 描述 线程 间 的 关系 ,“ 信 号 量 ”一 词 常 被 用 于 UNIX 的 信号 量 系统 调用 中 ， 因 
此 在 本 节 只 把 这 个 机 制 称 为 “ 锁 ”。 

最 好 将 这 个 协议 封装 成 两 个 函数 一 -lock 和 unlock， 使 用 方法 如 下 : 


if (lock("accounts")) ( 
~ Manipulate accounts .. 
unlock ("accounts"); 


} 
else 
m couldn't obtain lock .. 


锁 名 “accounts” 是 抽象 的 ， 它 不 必 与 某 个 实际 文件 相关 。 如 果 两 个 或 多 个 进程 同时 执行 
这 段 代码 , 锁 将 阻止 它们 同时 执行 被 保护 段 (无 论 accounts 指 的 是 什么 , 都 “对 accounts 加 锁 ”)。 
记 住 如 果 进 程 没 有 调用 1ock 函 数 ， 那 么 将 不 对 其 进行 保护 。 它 们 是 建议 性 锁 ， 而 非 强制 性 锁 。 
(7.11.5 节 将 详细 介绍 两 者 之 间 的 区 别 。) 

下 面 是 lock、unlock 以 及 lockpath 函 数 的 代码 : 

#define LOCKDIR "/tmp/" 


#define MAXTRIES 10 
#define NAPLENGTH 2 


static char *lockpath(char *name) 
{ 
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static char path{100]; 
if (snprintf (path, sizeof(path), "ts%s", LOCKDIR, name) > sizeof(path)) 
return NULL; 
return path; 
} 


bool lock(char *name) 
人 

char ‘path; 

int fd, tries; 


ec_null( path = lockpath(name) ) 
tries = 0; 
while ((fd = open(path, O_WRONLY | O_CREAT | O_EXCL, 0)) == -1 && 
errno == EEXIST) { 
if (++tries >= MAXTRIES) ( 
errno = EAGAIN; 
EC_FAIL 
} 
sleep (NAPLENGTH) ; 
} 
if (fd == -1) 
EC_FAIL 
ec_negl( close(fd) ) 
return(true); 


EC_CLEANUP_BGN 
return false; 

EC_CLEANUP_END 

} 


bool unlock(char *name) 
{ 
char *path; 


ec_null( path = lockpath(name) ) 
ec_negi( unlink(path) ) 
return true; 


EC_CLEANUP_BGN 
return false; 

EC_CLEANUP_END 

} 


lockpath 函 数 生成 了 一 个 锁 的 实际 文件 名 。 我 们 把 这 个 文件 名 放 在 /tmp 目 录 下 ， 因 为 
每 个 UNIX 系 统 都 具有 该 目录 ， 并 且 任 何人 都 可 对 该 目录 进行 写 操作 。 注 意 即 便 snprintf 函 
数 返回 的 数字 过 大 ， 也 不 会 溢出 所 给 定 的 缓冲 区 ， 此 返回 值 代表 了 可 能 发 生 的 事情 。 

根据 以 上 章节 介绍 的 内 容 ， 我 们 知道 ，1ock 会 通过 尝试 用 0_EXCL 创 建文 件 的 方式 来 设 
置 锁 。 我 们 区 别 了 EEXIST 与 其 他 错误 ， 如 代码 所 示 。 

我 们 试图 进行 MAXTRIES 次 创建 文件 操作 ， 两 次 尝试 之 间 的 间隔 时 间 为 NAPLENGTH 秒 。 
(关于 sleep， 既 可 以 参考 标准 C， 也 可 以 见 9.7.2 节 .) 由 于 对 写 人 文件 的 实际 内 容 不 感 兴 
所 以 关闭 open 返 回 的 文件 描述 符 时 ， 只 关心 文件 存在 与 否 ， 甚 至 不 带 任何 访问 权限 创建 文件 。 
此 外 ， 为 增强 功能 ， 可 以 把 进程 数 和 时 间 写 入 文件 ， 以 便 其 他 等 待 此 文件 的 进程 清楚 谁 正在 
等 待 以 及 工作 的 时 间 。 如 果 想 实现 这 项 功能 ， 需 要 对 文件 具有 读 权限 。 

unlock 函 数 所 做 的 工作 是 删除 文件 ， 这 样 下 次 尝试 创建 文件 才能 成 功 。2.6 节 将 介绍 系 
统 调 用 unlink。 
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下 面 也 是 一 个 有 趣 的 小 测试 程序 : 
void testlock (void) 


t 
int i; 


for (i = 1; i <= 4; i++) { 
if (lock("accounts")) { 
printf ("Process $1d got the lock\n*, (long)getpid()); 
sleep(rand() % 5 + 1); /* work on the accounts */ 
ec_false( unlock(*accounts*) ) 
} 
else { 
if (errno == EAGAIN) { 
printf ("Process tld tired of waiting\n", (long)getpid()); 
ec_reinit(); /* forget this error */ 
) 
else 
EC_FAIL /* something serious */ 
} 
sleep(rand() ¢ 5 + 5); /* work on something else */ 
} 
return; 
EC_CLEANUP_BGN 
EC_FLUSH( "testlock") 
EC_CLEANUP_END 
} 


该 程序 循环 4 次 完成 “请 求 /工作 /释放 ”模式 ， 这 里 的 “工作 ” 指 休眠 1 秒 到 5 秒 之 间 的 随 
机 数 的 时 间 。 如 果 没 有 得 到 锁 ， 它 将 打印 报告 并 继续 尝试 创建 ， 接 着 休眠 5 秒 到 9 秒 之 间 的 某 
个 时 间 ， 然 后 再 次 循环 。printf 调 用 通过 系统 调用 getid (该 系统 调用 的 解释 见 5.13 节 ) 得 


到 进程 ID。 现 在 立刻 运行 3 次 这 个 小 程序 : 


$ tst & tst & tst & 


输出 结果 如 下 : 
Process 9232 got the lock 
Process 9233 got the lock 
Process 9234 got the lock 
Process 9232 got the lock 
Process 9233 got the lock 
Process 9232 got the lock 
Process 9233 got the lock 
Process 9234 got the lock 
Process 9232 got the lock 
Process 9233 got the lock 
Process 9234 got the lock 
Process 9234 got the lock 


刚 开 始 时 以 可 预测 的 方式 运行 ， 到 第 6 行 以 后 才 变 得 更 有 意思 。 最 后 ， 进 程 9234 等 待 一 段 
时 间 ， 并 在 其 他 进程 返回 后 才 得 到 锁 。 

下 面 讨论 用 文件 当 锁 的 优点 和 缺点 。 优 点 是 : 它们 易于 编码 生成 文件 (目前 我 们 仍然 位 于 
本 书 第 2 章 的 前 几 节 )， 作 为 文件 它们 可 以 包含 一 些 数据 ， 而 且 只 要 文件 需要 ， 就 可 得 到 这 些 数 
据 ， 当 需要 永久 锁 时 这 是 有 用 的 。 但 最 后 一 点 在 以 下 情况 中 也 会 出 现 缺 点 : 如 果 进 程 在 没有 释 
放 锁 的 情况 下 中 断 执行 ， 即 使 重新 启动 ， 也 不 能 释放 锁 ， 除 非 删除 /tmp 目 录 。 同 样 ， 因 为 创 
建文 件 进程 执行 很 慢 ， 即 使 创建 失败 ， 操 作 量 也 很 大 ， 对 于 每 个 应 用 程序 的 执行 来 说 ， 少 数 几 
次 也 许 能 成 功 ， 但 对 于 需要 快速 锁定 的 操作 ， 如 数据 库 或 实时 程序 来 说 就 不 能 满足 要 求 了 。 
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然而 我 们 并 没有 提起 最 坏 的 情况 : 当 进 程 无 法 得 到 锁 时 ， 进 程 将 保持 休眠 状态 ， 并 一 直 
尝试 得 到 锁 ， 这 种 行为 称 为 轮 询 (polling)。 仅 仅 为 了 回答 一 个 简单 问题 :“ 到 我 了 吗 ? "， 
CPU 就 需要 做 很 多 的 工作 。 然 而 当 进 程 正在 休眠 时 ， 可 能 会 有 空闲 ， 但 在 进程 醒 来 之 前 ， 是 


不 会 发 现 它 的 ， 这 是 一 种 浪费 。 
幸运 的 是 ， 所 有 做 入 UNIX 内 部 的 、 需 要 锁 的 设备 都 使 用 了 阻 室 (blocking)， 阻 塞 是 指 进 


程 将 一 直 处 于 休 眼 状态 ， 直 到 所 需 事 件 出 现 。7.11 节 将 对 此 进行 介绍 。 


2.4.4 open 标 志 一 览 

除了 以 上 介绍 的 open 标 志 外 ，open 还 有 许多 标志 ， 在 以 后 适当 的 章节 进行 介绍 将 更 加 
有 意义 。 例 如 ，0_NOCTTY 与 终端 有 关 ， 因 此 将 在 第 4 章 对 其 进行 介绍 。 表 2-1 列 出 了 SUS39 
定义 的 所 有 标志 ， 关 于 它们 的 详细 介绍 ， 可 以 参考 相关 章节 。 





表 2-1 open 标 志 

标 志 解 释 
O_RDONLY 只 读 方式 打开 ( 见 2.4.1 节 )。 
O_WRONLY 只 写 方式 打开 (24.145). 
O_RDWR 读 写 方式 打开 (024.145). 
O_APPEND 每 次 写 都 追加 到 文件 的 尾 端 ( 见 28 节 ). 
O_CREAT 车 此 文件 不 存在 则 创建 文件 ( 见 2.4.2 节 )。 
0_DSYNC 设置 同步 UO 方 式 (02.16.34). 
O_EXCL: 如 果 文 件 已 经 存在 ， 则 出 错 ; 必须 与 O_CREAT 一 起 使 用 ( 见 2.4.2 节 )。 
O_NOCTTY 不 将 此 设备 作为 控制 终端 ( 见 4.10.1 节 )。 
O_NONBLOCK* 不 等 待命 名 管道 或 特殊 文件 准备 好 ( 见 4.2.2 节 和 7.2 节 )。 
O_RSYNC 设置 同步 /0 方式 ( 见 2.16.3 节 )。 
O_SYNC 设置 同步 0 方式 ( 见 2.16.3 节 )。 
O_TRUNC 将 其 长 度 截 短 为 0 ( 见 2.4.2 节 )。 





“ 头 三 个 标志 中 只 能 使 用 其 中 一 个 。 
1 原来 称 为 0_NDELAY， 含 义 略 有 不 同 。 


2.5 umask 系 统 调用 


在 2.4.2 节 提 到 了 进程 文件 方式 创建 屏蔽 字 。umask 系 统 调用 可 以 对 其 进行 设置 ， 除 了 
umask 命 令 ， 一 般 不 使 用 其 他 命令 设置 文件 方式 创建 屏蔽 字 。 


umask 一 一 设置 和 得 到 文件 模式 的 创建 掩 码 


#include <sys/stat.h> 





mode_t umask ( 
mode_t cmask /* new mask */ 


ve 
/* Returns previous mask (no error return) */ 





因为 每 个 进程 都 对 应 一 个 屏蔽 字 ， 并 且 9 个 权限 位 的 每 一 种 组 合 都 是 合法 的 ， 所 以 umask 
从 不 返回 错误 。 它 总 是 返回 旧 屏 蔽 字 。 为 了 找 出 没有 更 改 的 旧 屏蔽 字 ， 需 要 调用 两 次 umask: 
第 一 次 可 以 使 用 任何 参数 得 到 旧 屏 项 字 ， 第 二 次 按照 要 求 重 新 设置 。 


日 单一 UNIX 规 范 ， 版 本 3; 15.175. 
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2.6 unlink 系 统 调 用 


unlink 一 一 删除 目录 项 


#include <unistd.h> 


int unlink( 
const char *path /* pathname */ 


d; 
/* Returns 0 on success or -1 on error (sets errno) */ 





unlink 系 统 调用 能 从 目录 中 删除 链接 ， 并 将 信息 节点 所 引用 的 文件 链接 数 减 1。 如果 链 
接 数 减 到 0， 文 件 系统 将 删除 这 个 文件 ， 它 所 占用 的 磁盘 空间 可 再 次 被 利用 (添加 到 “自由 表 ” 
H), 信息 节点 也 可 被 重用 。 但 在 包含 此 链接 的 目录 中 进程 必须 具有 写 权限 。 

可 以 解 链 任何 类 型 的 文件 (普通 文件 、 套 接 字 、 命 名 管道 以 及 特殊 文件 等 )， 但 只 有 超级 
用 户 才 可 以 解 链 目 录 ， 在 某 些 系统 中 ， 即 使 是 超级 用 户 ， 也 不 可 以 解 链 目录 。 无 论 如 何 ， 解 
链 目录 都 应 该 使 用 rmdir 系 统 调用 ( 见 3.6.3 节 )， 而 不 是 unlink。 

当 链接 数 为 0， 而 某 些 进程 仍 有 打开 文件 时 ， 为 了 避免 中 断 正在 运行 的 进程 ， 文 件 系统 将 
延迟 出 除 文件 ， 直 到 文件 关闭 。 这 种 特性 常用 于 程序 运行 时 创建 的 临时 文件 ， 程 序 代码 如 下 : 


ec_negl( fd = open(*temp", O_RDWR | O_CREAT | O_TRUNC | O_EXCL, 0) ) 
ec_neg1( unlink(*temp") ) 


这 种 技术 有 两 个 优点 : 第 一 ， 如 果 由 于 某 种 原因 进程 终止 ， 系 统 将 删除 文件 。 例 如 为 了 
确保 文件 解 链 ， 不 必 使 用 atexit ( 见 1.3.4 节 ) 注册 函数 。 第 二 ， 因 为 通过 un1link 可 以 立即 
从 当前 目录 删除 链接 ， 进 一 步 碱 少 了 第 二 个 进程 使 用 同一 临时 文件 以 及 因为 带 有 0_EXCL 标 志 
时 open 出 错 的 危险 。 但 是 如 果 第 二 个 进程 在 第 一 个 进程 的 open 和 unlink 之 间 执 行 open， 
仍 有 可 能 出 现 以 上 危险 。 

补救 这 个 问题 的 一 个 方法 是 采用 锁 ( 见 2.4.3 节 ): 


ec_false( lock(*opentemp") ) 
ec_negl( fd = open(*temp*, O_RDWR | O_CREAT | O_TRUNC | O_EXCL, 0) ) 


ec_negl{ unlink(*temp*) ) 
ec_false( unlock(*opentemp") ) 


补救 方法 虽然 很 完美 ， 但 仍 有 一 个 缺点 : 锁 仅 是 建议 性 的 ， 并 且 临 时 文件 的 命名 相当 不 
规范 。 因 此 ， 很 可 能 有 另 一 个 进程 (没有 使 用 锁 ) 使 用 了 同一 个 名 字 ， 而 其 中 一 个 进程 将 不 
能 得 到 它 的 临时 文件 (因为 带 有 0_EXCL 标 志 的 open 出 错 )。 更 好 的 补救 方法 是 使 临时 文件 名 
唯一 ， 但 是 需要 一 点 技巧 ，2.7 节 将 对 临时 文件 做 更 加 详细 的 介绍 。 

也 许 你 想到 了 另 一 个 问题 : 因为 文件 名 总 是 temp ， 两 个 进程 同时 对 同一 个 临时 文件 进行 
读 写 ， 不 会 造成 混乱 吗 ?回答 是 : 不 会 。 如 果 我 们 今天 命名 了 一 个 名 叫 myfile 的 文件 ， 并 删 
除了 它 ， 明 天 创建 相同 文件 名 的 文件 也 不 会 指向 同一 个 文件 ， 因 为 第 一 个 进程 使 用 的 信息 节 
点 与 第 二 个 进程 将 使 用 的 信息 节点 是 截然 不 同 的 ， 所 以 即便 第 一 个 进程 (数据 完整 无 缺 ) 仍 
然 有 打开 的 文件 也 没关系 。 可 以 按 以 下 方式 考虑 :即使 文件 仍然 是 打开 的 ，un1link 也 删除 了 
目录 入 口 项 ， 结 果 信息 节点 变 成 了 匿名 的 ， 因 此 与 新 进程 的 访问 完全 隔离 了 。 


2.7 创建 临时 文件 


在 前 一 节 中 ， 创 建 临时 文件 的 方法 是 使 用 固定 的 命名 (tempP)， 并 使 用 锁 防 止 两 个 进程 
同时 执行 相同 的 代码 ， 这 种 方法 很 笨拙 ， 因 此 在 UNIX 中 更 常用 的 方法 是 通过 确保 命名 唯一 来 
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避免 产生 冲突 。 标 准 C 函 数 tmpnam 似 乎 能 够 满足 这 个 要 求 : 
char *pathname; 
ec_null( pathname = tmpnam(NULL) ) 


ec_negl( fd = open(pathname, O_RDWR | O_CREAT | O_TRUNC | O_EXCL, 0) ) 
ec_neg1( unlink(pathname) ) 


因为 确信 没有 此 名 字 的 文件 存在 ， 所 以 能 确保 tmpnam 的 返回 值 是 唯一 的 。 但 是 只 有 执行 
了 open， 才 能 创建 该 文件 ， 因 此 有 较 少 可 能 是 另 一 个 同时 执行 Lmpnam 的 进程 创建 了 具有 相 
同名 字 的 文件 。( 必须 清楚 地 认识 到 ， 两 行 代码 之 间 的 执行 是 任意 的 ， 其 他 进程 也 可 以 执行 
tmpnam。 ) 因为 0_EXCL 标 志 ， 其 中 一 个 不 能 创建 和 打开 ， 因 此 不 存在 VO 混淆 的 危险 ,而且 
也 比 使 用 固定 命名 好 。 虽 然 冲 突 的 可 能 性 降低 了 ， 但 还 不 够 ， 因 为 没有 降 到 0。 

下 面 是 解决 该 问题 的 方法 : 


mkstemp 一 一 用 唯一 的 名 字 建 立 和 打开 文件 


#include <stdlib.h> 


int mkstemp( 
char *template /* template for file name */ 


) 
/* Returns open file descriptor or -1 on error (may not set errno) */ 





mkstemp 绝 对 确保 了 所 创建 的 文件 具有 独一无二 的 命名 ， 没 有 竞 态 条 件 问题 。 给 定 一 个 以 
6 个 X 结 尾 的 名 称 模板 ， 只 要 能 使 命名 唯一 ，6 个 X 可 替换 成 任何 字母 组 合 。mkstemp 比 tmpnam 
的 作用 更 强 ， 实 际 上 ， 它 创建 和 打开 的 文件 都 具有 读 写 权限 。 尽 管 大 多 数 实现 可 能 仅 允 许 所 有 
者 (S_IRUSR|S_IWUSR) 读 写 ,但 因为 标准 (SUS3) 没有 规定 ， 所 以 不 能 假定 使 用 的 权限 。 

对 于 一 个 可 移植 程序 ， 如 果 mkstemp 返 回 -1， 系 统 将 不 知道 如 何 处 理 errno。 标 准 没有 
规定 任何 错误 代码 ， 但 是 可 以 肯定 所 有 的 工具 都 将 返回 一 个 有 效 的 errno。 因 此 可 以 选择 使 
用 ec_neg1 宏 (回忆 可 知 ， 它 记录 了 errno)， 即 使 标准 没有 设置 errno。 如 果 没 有 为 错误 
设置 errno， 那 么 为 了 避免 产生 误导 错误 消息 ， 在 调用 函数 之 前 ， 应 尽量 将 其 设置 为 0。 

mkstemp 存 在 于 SUS1、Linux、FreeBSD 和 Darwin (其 起 源 于 BSD) 中 ， 因 此 几乎 可 以 


随处 使 用 。 
下 面 举 例 说 明 ; 为 了 说 明 问题 ， 我 们 输出 文件 名 : 
char pathname[] = */tmp/dataXXXXxxx" ; 


errno = 0; /* mkstemp may not set it on error */ 
ec_negl( fa = mkstemp(pathname) ) 

ec_negl( unlink(pathname) ) 

printf ("%s\n", pathname); 


输出 结果 : 


/tmp/datakdByOu 


用 户 不 必 立刻 解 链 文件 ， 但 必须 安排 以 后 解除 (如 利用 已 注册 的 atexit 函 数 )， 否 则 将 被 
遗忘 。 当 然 ， 如 果 需 要 向 程序 其 他 部 分 或 外 部 程序 传递 路 径 名 ， 则 不 能 立即 解 链 ， 如 下 例 所 示 : 


int status; 
char cmd{100]; 


ec_negl( fd = mkstemp(pathname) ) 
/* code to write text lines to fd (not shown) */ 
snprintf (cmd, sizeof(cmd), “sort ès", pathname); 
ec_negl( status = system(cmd) } 
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将 解释 语句 (“code to write”) 替换 成 写 这 个 文件 的 代码 。system 是 调用 外 部 程序 的 
标准 C 函 数 ; 第 5 章 将 对 其 进行 介绍 。 

顺便 说 一 下 ， 你 可 能 想 要 查找 一 个 名 为 tmpfile 的 标准 C 函 数 ， 它 的 工作 过 程 与 nkstemp 
相同 ， 但 是 它 返回 的 是 FILE 指 针 ， 而 不 是 文件 描述 符 。 

一 个 听 得 更 多 的 函数 是 mktemp， 此 函数 与 tmpnam 的 功能 接近 程度 高 于 与 mkstemp 的 接 
近 程度 ， 因 为 该 函数 返回 结果 为 文件 名 ,而 不 创建 文件 。 此 函数 与 tmpnam 一 样 具有 很 多 问题 ， 
并 且 不 包含 在 标准 C 中 ， 因 此 不 要 使 用 它 。 

小 结 : 

好 的 函数 : mkstemp 和 tmpfile。 

差 的 函数 : mktemp 和 tmpnam。 


2.8 文件 偏 移 量 和 O_APPEND 


本 节 将 介绍 0_APPEND 标 志 ， 这 个 标志 首先 出 现在 2.4.4 节 ， 然 后 介绍 read、write、 
lseek、pread 和 pwrite 系 统 调用 的 一 些 特性 ， 对 这 些 函 数 的 详细 介绍 见 以 后 章节 。 

对 于 普通 文件 来 说 ， 文 件 偏 移 重 标识 的 是 下 一 次 读 或 写 文件 的 位 置 。 这 是 文件 偏 移 量 的 
唯一 目的 。 其 他 类 型 的 文件 ， 包 括 目 录 、 套 接 字 、 命 名 管道 和 符号 链接 都 没有 文件 偏 移 量 。 
特殊 文件 是 否 有 文件 偏 移 量 ， 要 取决 于 它们 的 实现 ( 见 3.2 节 )。 

在 UNIX 出 现 之 前 (提示 : 甲 沉 虫 乐 队 还 没有 解散 )， 大 部 分 操作 系统 都 包含 “顺序 数据 
文件 ”和 “随机 数据 文件 "。UNIX 只 有 一 种 数据 文件 类 型 ， 通 过 可 移动 的 文件 偏 移 量 控制 随 
机 访问 。 即 使 今天 看 起 来 很 平常 明了 ， 但 那 时 是 很 重大 的 改革 。 

如 图 2-1 所 示 ， 每 次 打开 一 个 文件 时 ， 因 为 能 得 到 一 个 新 的 打开 文件 描述 ， 所 以 可 以 得 到 
一 个 独立 的 文件 偏 移 量 。 这 意味 着 在 下 面 的 例子 中 : 


int fal, fd2, £43; 


ec_negl( fdl = open(*myfile", O_WRONLY | O_CREAT | O_TRUNC, PERM_FILE) ) 
ec_negl( fd2 = open(*myfile", O_RDONLY) ) 
ec_negl( fd3 = open("yourfile*, O_RDWR | O_CREAT | O_TRUNC, PERM_FILE) ) 


fd1 和 fd2 拥 有 各 自 的 文件 偏 移 量 ， 因 此 对 fd1 的 写 以 及 对 fd2 的 读 是 独立 的 ， 但 对 fd3 文 件 
的 读 写 只 有 一 个 文件 偏 移 量 。 

在 缺少 o_APPEND 标 志 的 情况 下 ， 对 于 新 打开 的 文件 ， 其 文件 偏 移 量 为 0， 读 操作 或 写 操 
作 会 自动 获取 该 偏 移 量 ， 并 通过 read 或 write 的 大 小 自动 完成 读 或 写 操作 。 因 此 ， 除 非 有 意 
改变 了 文件 的 偏 移 量 ， 否 则 =ead 和 write 操作 是 有 顺序 的 。 用 户 可 以 读 一 些 数据 ， 接 着 再 用 
read 读 下 面 的 数据 ， 依 此 类 推 。 同样， 可 以 实现 write 操作 。 

假设 文件 偏 移 量 从 0 开始 ， 如 果 往 fd1 中 写 和 100 个 字 节 ， 接 着 从 fd2 中 读 出 100 个 字 节 ， 
那么 读 出 的 字 节 会 是 刚刚 写 入 的 那 100 个 字 节 。 但 是 如 果 往 £d3 中 写 和 人， 接着 从 中 读 出 ， 那 么 
得 到 的 将 是 写 和 数据 之 后 的 内 容 ， 如 果 没 有 数据 ， 将 返回 文件 结束 标志 ， 因 为 read 和 write 
使 用 的 是 同一 个 文件 描述 而 每 个 文件 描述 又 只 有 一 个 唯一 的 偏 移 量 。 

通过 lseek ( 见 2.13 节 ) 可 以 找 出 文件 偏 移 量 在 文件 描述 符 中 的 位 置 ， 并且 (或 者 ) 为 
其 设置 新 值 。 此 新 偏 移 量 值 将 影响 下 一 次 在 此 文件 描述 符 中 的 读 或 写 。 

在 第 6 章 中 ， 我 们 将 讲解 如 何 复制 一 个 打开 文件 描述 符 ， 这 里 所 说 的 “复制 ”不 是 像 


fdl=£d2; 
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这 样 的 拷贝 ， 而 是 采用 系统 调用 如 dup 实 现 的 复制 。 但 无 论 怎 样 ， 最 重要 的 一 点 是 一 个 文件 
描述 符 是 另 一 个 的 复制 品 ， 共享 同一 个 打开 文件 描述 ， 所 以 两 者 共享 同一 个 文件 偏 移 量 。 

当 文 件 以 0_APPEND 标 志 打开 时 ， 所 有 通过 write 系 统 调用 进行 的 写 操作 ， 都 将 通过 隐 
含 的 1seek 将 文件 偏 移 量 设置 在 文件 的 结尾 ， 因 此 写 操作 都 自动 在 文件 结尾 进行 。 即 使 几 个 
进程 同时 对 用 0_APPEND 标 志 打 开 的 文件 进行 写 操 作 ， 每 个 写 操作 也 都 会 立即 在 文件 结尾 进 
行 ， 而 且 彼此 之 间 也 不 会 覆盖 或 者 混 淆 它们 的 数据 。 但 用 户 无 法 用 跟 有 写 操作 的 1seek 来 实 
现 同样 的 功能 (不 设置 0_APPEND 标 志 )， 因 为 如 我 们 所 看 到 的 其 他 情况 一 样 ， 两 个 系统 调用 
之 间 有 间隙 ， 这 个 间隙 能 导致 如 下 后 果 : 

1) 进程 A 将 文件 偏 移 量 定位 在 文件 结尾 (假定 位 置 在 1000)。 

2) 进程 B 将 文件 偏 移 量 也 定位 在 文件 结尾 (位 置 同样 是 1000)。 

3) 进程 B 写 人 200 字 节 (位 置 是 1000)。 

4) 进程 A 写 入 200 字 节 (在 位 置 1000， 覆 盖 了 进程 B 写 入 的 内 容 )。 哎 ! 

可 以 通过 锁 ( 见 2.4.3 节 ) 补救 该 问题 ， 但 解决 此 问题 更 好 的 方法 是 : 当 进 程 A 和 进程 B 打 
开 文 件 时 ， 如 果 设 置 了 0_APPEND 标 志 ， 则 必须 保证 可 以 完成 如 下 功能 : 

1) 进程 A 将 文件 偏 移 量 定位 在 文件 结尾 (假定 位 置 是 1000)， 并 进行 写 操作 。 

2) 进程 B 将 文件 偏 移 量 定位 在 文件 结尾 (位 置 是 1200)， 并 进行 写 操作 。 

因此 当 需 要 从 几 个 进程 累加 输出 量 时 ， 对 日 志文 件 或 其 他 情况 而 言 ， 通 过 设置 
0_APPEND 标 志 来 实现 是 很 合适 的 。 

也 可 以 仅仅 通过 规定 系统 调用 本 身 的 位 置 来 实现 文件 的 读 写 ， 不 用 先 调用 1seek; 
pread 和 pwrite 就 可 以 实现 此 功能 ( 见 2.14 节 )。 这 两 个 函数 不 使 用 文件 偏 移 量 ， 也 不 改变 
它 的 位 置 。 

现在 对 读 写 操作 已 经 有 了 很 好 的 了 解 ， 如 果 喜 欢 的 话 ， 可 以 跳 到 2.13 节 了 解 1seek 的 功 
能 以 及 相应 的 示例 ， 然 后 返回 来 继续 2.9 节 的 内 容 。 


2.9 write 系统 调用 





write 一 一 向 文件 描述 符 写 
#include <unistd.h> 


ssize_t write( 
int fd, /* file descriptor */ 
const void *buf, /* data to write */ 
size_t nbytes /* amount to write */ 


i; 
/* Returns number of bytes written or -1 on error (sets errno) */ 





前 面 已 经 多 次 提 到 write， 现 在 到 了 对 其 进行 全 面 介绍 的 时 候 了 。 

write 将 buf 所 指 缓冲 区 的 n 字 节 写 人 fd 所 描述 的 打开 文件 中 。 写 操作 从 文件 偏 移 量 的 当 
前 位 置 开 始 执行 ， 并 且 在 完成 之 后 ， 文 件 偏 移 量 将 增加 所 写 人 的 字 节 。 若 写 人 成功， 返回 值 
为 已 写 的 字 节 数 ， 出 错 则 为 -1。 

前 面 说 到 ， 如 果 设 置 了 0_APPEND 标 志 ， 写 之 前 文件 偏 移 量 会 自动 定位 到 文件 的 结尾 。 

write 也 用 于 向 管道 、 特 殊 文件 和 套 接 字 写 入 数据， 但 是 在 这 些 情况 中 语义 略 有 不 同 。 
一 个 重要 的 差别 是 ， 这 些 写 操作 可 以 阻塞 ， 这 意味 着 它们 正在 等 待 某 个 不 可 预知 的 事件 ， 例 
如 等 待 可 用 数据 。 如 果 阻 塞 了 写 操作 ， 那 么 到 达 的 信号 会 中 断 其 操作 ( 见 9.14 节 )， 在 这 种 情 
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况 下 写 操作 将 返回 值 -1， 并 将 errno 设 置 成 ETNTR。 现 在 只 介绍 普通 文件 的 写 操作 ， 对 于 其 
他 文件 类 型 的 写 操作 ， 将 在 第 4、6、8 章 进行 。 

write 给 人 的 假象 是 很 简单 。 它 似乎 只 是 写 入 数据， 接着 返回 结果 ， 但 一 个 小 小 的 实验 
就 可 以 使 人 相信 实际 并 非 如 此 ， 即 没 那么 快 。 那 是 骗 人 的 ! 

实际 上 ， 那 确实 是 骗 人 的 假象 。 当 用 户 调用 write 系统 调用 时 ， 并 不 执行 写 操作 ， 接 着 
返回 数据 ， 它 仅仅 是 将 数据 传递 给 内 核 中 的 缓冲 区 ， 除 了 声明 如 下 内 容 之 外 ， 不 做 其 他 事情 

我 注意 到 了 你 的 请 求 ， 接 下 来 会 保证 你 的 文件 描述 符 可 以 使 用 。 我 已 经 成 功 地 

复制 了 你 的 数据 ， 磁 盘 空 间 是 充足 的 。 以 后 ， 我 方便 的 时 候 ， 如 果 我 仍 是 激活 的 ， 

我 会 设法 把 你 的 数据 放 到 磁盘 中 。 如 果 发 现 错误 ， 我 会 设法 在 控制 台 输 出 错误 ， 但 

我 不 会 告诉 你 这 些 的 (实际 上 ， 你 那 时 可 能 已 经 终止 运行 了 )。 如 果 在 我 写 出 这 些 数 

据 之 前 ， 你 或 者 其 他 进程 试图 读 这 些 数据 ， 那 么 我 将 从 线 冲 区 为 你 读 这 些 数据 ， 因 

此 ， 如 果 一 切 顺 利 ， 你 不 会 知道 我 什么 时 候 完 成 的 请 求 ， 也 不 会 知道 我 是 否 完成 了 

你 的 请 求 。 你 可 以 进一步 提出 要 求 。 相 信 我 并 感谢 我 的 快速 回答 吧 一 一 我 认为 那 正 是 

你 所 关心 的 。 

如 果 一 切 顺利 ， 那 么 延迟 写 就 是 假想 的 。 语 义 和 实 际 发 生 写 操作 时 相同 ， 但 非常 快 。 然 
而 如 果 有 磁盘 错误 ， 或 者 由 于 某 种 原因 内 核 停止 了 ， 那 么 就 全 完了 。 你 会 发 现 要 写 的 数据 根 
本 没有 写 到 磁盘 上 。 

除了 不 能 确定 什么 时 候 发 生物 理 写 操作 之 外 , 对 于 延迟 写 还 有 其 他 两 个 问题 。 第 一 个 问题 
一 个 调用 写 操作 的 进程 没有 得 到 写 错误 的 通知 。 实 际 上 ， 文 件 系统 缓存 并 不 被 任 一 单个 进程 所 
有 ， 如 果 多 个 进程 同时 向 同一 文件 的 同一 块 写 数据 ， 数 据 将 被 传送 到 相同 的 缓存。 当然 ， 我 们 
可 以 构思 一 个 方案 ， 其 中 “ 写 错误 ”信号 可 以 发 送 到 每 一 个 向 特定 缓存 写 数据 的 进程 ， 在 较 晚 
的 时 间 ， 应 当 处 置 它 的 进程 在 做 什么 呢 ? 并 且 内 核 如 何 通知 已 经 终止 了 的 进程 呢 ? 

第 二 个 问题 是 物理 写 操作 的 顺序 是 无 法 控制 的 。 顺 序 经 常 引发 问题 。 例 如 ， 当 在 文件 中 
更 新 链表 结构 时 ， 较 好 的 方法 是 写 一 个 新 记录 ， 然 后 更 新 那个 指向 它 的 指针 ， 相 反 则 不 好 ， 
因为 没有 指针 指向 的 记录 比 不 指向 任何 内 容 的 指针 产生 的 问题 少 。 即 使 wzite 系 统 调用 是 被 
按照 某 种 特定 顺序 调用 的 ， 也 不 能 保证 缓冲 区 的 数据 能 按 此 顺序 写 和 磁盘， 因此 除了 上 述 例 
子 之 外 ， 小 心 的 替换 (careful replacement) 技术 也 不 能 像 其 设 定 的 那样 起 作用 ， 而 只 能 保证 
进程 不 会 在 不 合适 的 位 置 中 断 ， 但 它们 不 能 保证 不 出 现 磁盘 错误 和 内 核 崩溃 。 

幸运 的 是 ， 可 以 采用 强制 同步 写 方式 ， 将 在 2.16 节 介绍 相关 内 容 。 

这 些 与 write 相关 的 问题 不 必 被 过 分 强调 。 现 代 计 算 机 的 可 靠 性 很 高 ， 而 且 UNIX 实 现 的 
可 靠 性 通常 也 很 高 ， 因 此 出 现 内 核 崩溃 的 几率 很 少 。 大 多 数 用 户 只 会 发 现 缓冲 区 的 速度 之 快 ， 
永远 不 会 发 现 内 核 错误 。 

现在 ， 我 们 再 次 看 一 下 本 章 开 始 时 的 文件 复制 的 例子 。 核 对 写 错误 的 缺陷 是 : 


if (write(tofd, buf, nread) != nread) 
EC_FAIL 
如 果 write 返 回 的 计数 比 请 求 的 计数 少 ， 那 并 不 算是 错误 。 计 数 少 也 许 是 因为 碰巧 管道 已 满 ， 
或 者 是 达到 了 普通 文件 规定 的 极限 。 下 一 次 调用 写 操作 时 将 产生 错误 。9 
因此 缺陷 是 EC_FAIL 宏 记录 了 一 个 没有 任何 意义 的 errno， 这 个 值 仅 在 返回 值 为 -1 时 设 
定 。 可 以 重新 编写 这 个 函数 ， 接 受 部 分 写 操作 ， 并 保持 尝试 直到 真正 的 错误 发 生 : 


O ”就 算 当时 能 发 现 什 么 原因 造成 了 计数 的 减少 ， 例 如 是 空间 的 短缺 ， 并 能 在 下 次 调用 write 之 前 纠正 错误 ， 
不 出 现 返回 错误 ， 但 是 也 没有 100% 可 靠 的 方法 可 以 查 出 为 什么 部 分 write 或 read 的 计数 少 了 。 
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#define BUFSIZE 512 


void copy2(char *from, char *to) 
{ 
int fromfd = -1, tofd = -1; 
ssize_t nread, nwrite, n; 
char buf {BUFSIZE]; 


ec_negl( fromfd = open(from, O_RDONLY) ) 
ec_negl( tofd = open(to, O_WRONLY | O_CREAT | O_TRUNC, 
S_IRUSR | S_IWUSR) ) 
while ((nread = read(fromfd, buf, sizeof(buf))) > 0) { 
nwrite = 0; 
do { 
ec_negl( n = write(tofd, sbuf(nwrite], nread - nwrite) ) 
nwrite += n; 
} while (nwrite < nread); 
$ 
if (nread == -1) 
EC_FAIL 
ec_negl( close(fromfd) ) 
ec_negl( close(tofd) ) 
return; 


EC_CLEANUP_BGN 
(void) close(fromfd); /* can't use ec_negl here! */ 
(void) close (tofd) ; 

EC_CLEANUP_END 

} 


实际 上 ， 对 于 普通 文件 而 言 ， 这 段 代 码 未 免 有 些 过 于 麻烦 了 ， 尽 管 我 们 以 后 对 终端 和 管 
道 进行 1O 操 作 时 要 使 用 的 技术 与 此 相似 ， 但 终端 和 管道 有 时 仅 需 多 次 尝试 ， 问 题 便 可 解决 。 
因此 当 向 普通 文件 写 数据 时 ， 下 面 这 个 简单 方案 也 许 意义 更 大 : 

if ((nwrite = write(tofd, buf, nread)) != nread) { 

if (nwrite != -1) 
errno = 0; 
EC_FAIL 

) 

或 者 可 能 有 人 喜欢 这 样 写 : 

Ec false weite(tofd, buf, nread) == nread ) 

这 里 将 errno 设 为 0， 以 便 错 误 报告 显示 错误 (并 显示 代码 行 号 ) ， 而 不 是 显示 容易 令 人 误解 
的 错误 代码 。 因 此 可 以 确定 不 需要 做 的 事情 是 完全 忽略 少 的 计数 : 

ec_negl( write(tofd, buf, nread) ) /* wrong */ 

下 面 介绍 一 个 方便 实用 的 函数 writeall， 它 封装 了 前 面 copy2 的 例子 中 用 到 的 “保持 
尝试 ”的 方法 。 在 本 书后 面 的 章节 ( 见 4.10.2 节 和 8.5 节 ) 中 ， 当 需要 确保 写 入 所 有 的 内 容 时 ， 
将 使 用 此 函数 。 注 意 ， 因 为 “ec” 宏 是 直接 替换 写 操作 ， 所 以 不 使 用 它 : 

ssize_t writeall(int fd, const void *buf, size_t nbyte) 


£ 
ssize_t nwritten = 0, n; 


do { 
if ((n = write(fd, &((const char *)buf) [nwritten], 


nbyte - nwritten)) == -1) { 
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if (errno == EINTR) 
continue; 
else 
return -1; 
4 
nwritten += n; 
} while (nwritten < nbyte); 
return nwritten; 
} 


因为 BINTR 错 误 实 际 上 不 是 错误 ， 因 此 对 它 进行 了 特殊 处 理 。EINTR 错 误 只 是 说 明了 在 
写 入 过 程 中 ， 某 个 信号 中 断 了 写 操作 ， 因 此 可 以 忽略 它 ， 而 继续 进行 写 操作 。9.1.4 节 对 信号 
和 如 何 处 理 中 断 系统 调用 做 了 详细 的 讲解 。 下 一 节 有 一 个 类 似 的 readall。 


2.10 read 系 统 调 用 


read 一 一 从 文件 描述 符 中 读 入 
#include <unistd.h> 


ssize_t read( 
int fd, /* file descriptor */ 
void *buf, /* address to receive data */ 
size_t nbytes /* amount to read */ 


) 
/* Returns number of bytes read or -1 on error (sets errno) */ 





read 系 统 调用 与 write 相反 ， 它 是 从 fd 所 描述 的 打开 文件 中 读 取 buf 所 指 缓冲 区 中 的 n 
字 节 。read 从 当前 文件 偏 移 量 开始 读数 据 ， 并 且 完成 读 操作 后 ， 文 件 偏 移 量 将 增加 所 读 字 节 
数 。read 的 返回 值 是 所 读 字 节 数 、 文 件 结束 标志 0 或 者 错误 标志 -1。 读 操作 不 受 0_APPEND 
标志 的 影响 。 

与 write 不 同 ，read 系 统 调用 不 会 轻易 被 传递 数据 和 随后 读 取 的 数据 欺骗 。 如 果 数 据 已 
经 不 在 缓冲 区 中 (由 于 以 前 的 IO 操作 )， 进 程 必须 等 待 内 核 从 磁盘 得 到 数据 。 有 时 ， 当 内 核 
注意 到 访问 方式 暗示 是 从 连续 磁盘 块 中 顺序 读 取 数据 时 ， 它 会 设法 加 快 读 取 速 度 ， 提 前 读 取 
所 需要 的 数据 。 如 果 系 统 能 够 轻易 地 加 载 足 够 的 数据 ， 而 且 能 在 缓冲 区 保持 一 会 ， 并 且 读 操 
作 是 顺序 的 ， 则 提前 读 是 很 有 效 的 。 

与 部 分 写 一 样 ， 也 存在 部 分 读 的 问题 : 因为 返回 的 计数 值 少 于 所 读 字 节 不 是 错误 ， 所 以 
errno 是 无 效 的 ， 用 户 必须 推测 问题 所 在 。 如 果 需 要 读 所 有 的 数据 ， 最 好 是 通过 循环 调用 
read， 如 readall 函 数 所 实现 的 功能 (可 以 与 上 一 节 的 writeall 函 数 做 比较 ): 


ssize_t readall(int fd, void *buf, size_t nbyte) 
{ 
ssize_t nread = 0, n; 


do { 
if ((n = read(fd, &((char *)buf)(nread], nbyte - nread)) == -1) { 
if (errno == EINTR) 


continue; 
else 
return -1; 
} 
if (n == 0) 


return nread; 
nread += n; 
} while (nread < nbyte); 
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return nread; 
} 


在 8.5 节 将 讲述 readall 函 数 的 使 用 。 
与 write 一 样 ， 从 管道 、 特 殊 文 件 或 套 接 字 中 读数 据 时 read 可 以 阻塞 这 种 情况 下 读 操 
作 可 能 会 被 信号 中 断 ( 见 9.1.4 节 )， 结 果 返 回 值 -1， 并 把 errno 设 置 成 EINTR。 


2.11 close 系 统 调用 


close 一 一 关闭 文件 描述 符 


#include <unistd.h> 


int close( 
int fd /* file descriptor */ 


) 
/* Returns 0 on success or -1 on error (sets errno) */ 





通过 对 close 进 行 分 析 ， 应 该 明白 最 重要 的 一 点 是 它 没有 做 任何 工作 。 它 没有 刷新 任何 
内 核 缓冲 区 ， 而 仅仅 使 文件 描述 符 可 重用 。 当 指向 一 个 打开 文件 描述 的 最 后 文件 描述 符 关闭 
时 ( 见 2.2.3 节 )， 也 将 删除 打开 文件 描述 。 同 样 ， 相 应 地 ， 当 删除 指向 内 存 信息 节点 的 最 后 一 
个 打开 文件 描述 时 ， 也 将 删除 内 存 信息 节点 。 进 一 步 说 : 如 果 移 去 了 实际 信息 节点 的 所 有 链 
接 ， 系 统 将 删除 磁盘 上 的 信息 节点 和 它 的 所 有 数据 ( 见 2.6 节 )。 

因为 clobse 不 刷新 缓存 ， 也 不 会 加 速 居 新， 所 以 从 写 入 了 数据 的 文件 中 读数 据 前 不 需要 
关闭 文件 ， 它 可 以 保证 用 户 能 读 出 所 写 入 的 数据 。 也 可 以 这 样 理解 ， 内 核 缓冲 决 不 会 影响 
read、write、lseek 或 者 其 他 系统 调用 的 语义 。 

实际 上 ， 如 果 不 再 需要 文件 描述 符 ， 根 本 没有 必要 调用 close ， 因 为 进程 终止 时 将 收回 
文件 描述 符 。 然 而 ， 最 好 的 办 法 是 释放 内 核 结构 ， 并 且 向 程序 的 读 取 进程 表明 用 户 已 经 完成 
了 对 文件 的 操作 。 如 果 时 常 检查 错误 ， 则 可 以 避免 偶尔 使 用 文件 描述 符 带 来 的 问题 。 

调用 close， 对 管道 和 其 他 的 不 规则 文件 也 会 带 来 负面 作用 ， 当 讨论 这 些 文件 类 型 时 ， 
还 会 详细 讨论 这 些 问 题 。 
2.12 用 户 缓冲 MO 

到 目前 为 止 ， 我 们 已 经 讨论 了 内 核 缓冲 区 ， 通 过 它 可 以 在 快速 内 存 中 实现 预先 读 、 延 迟 


写 以 及 保持 频繁 的 数据 访问 。 本 节 还 涉及 了 一 个 类 型 截然 不 同 的 缓存 ， 用 户 执行 进程 使 用 的 
缓存 ， 该 缓存 与 内 核 缓存 根本 无 关 。 为 了 与 内 核 红 存 区 分 ， 称 这 种 缓存 为 用 户 给 存 。 


2121 用 户 缓存 与 内 核 缓存 

第 1 章 已 经 介绍 ，UNIX 文 件 系统 是 建立 在 块 特殊 文件 之 上 的 ， 因 此 所 有 的 内 核 1O 操 作 和 
所 有 的 缓冲 操作 都 是 以 块 为 单位 的 。 块 的 大 小 可 以 是 任何 数字 ， 但 一 般 是 512 字 节 的 倍数 ， 
1024、2048 和 4096 都 是 常用 的 数字 。 所 有 设备 的 块 尺寸 可 以 不 同 ， 并 可 以 根据 磁盘 分 区 的 大 


小 而 改变 。 下 面 将 进行 简要 的 说 明 。 
读 写 大 的 数据 块 比 小 的 数据 块 要 快 。 为 了 演示 效果 ， 现 在 重新 编译 2.9 节 的 copy2 程 序 ， 


通过 如 下 改动 将 用 户 缓存 大 小 变 为 1 字 节 : 


#define BUFSIZE 1 
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在 表 2-2 中 列 出 了 两 个 版 本 下 复制 4MB 文 件 9 所 使 用 的 时 间 (时 间 以 秒 为 单位 )。 
表 2-2 以 块 为 单位 的 /O 和 以 字符 为 单位 的 时 间 





方 法 用 P 系 统 总 计 
512 字 节 缓 存 0.07 0.58 0.65 
1 字 节 缓存 18.43 204.98 223.41 


(这 些 时 间 是 在 Linux 系 统 上 运行 的 结果 ; 在 FreeBSD 系 统 中 具有 相同 的 结果 ) 

用 户 时间 是 用 户 进程 执行 指令 所 使 用 的 时 间 。 系 统 时 间 是 进程 在 内 核 中 执行 指令 所 使 用 
的 时 间 。 

对 于 普通 文件 来 说 ， 这 种 小 的 缓存 所 造成 的 LO 性 能 恶化 是 极其 剧烈 的 ， 所 以 根本 没有 人 
这 样 做 ， 除 非 程序 是 为 了 临时 、 意 外 或 者 是 在 极 不 寻常 的 情况 下 使 用 (例如 向 后 读 文件 ， 见 
2.13 节 )。 缓 存 大 时 也 会 出 现 性 能 恶化 的 系统 调用 ( 当 缓存 是 512 字 节 时 )。 为 了 检查 IO 缓存 选 
择 不 当 造 成 的 性 能 恶化 ， 选 择 了 两 个 不 同 的 BUFSIZE 进 行 比较 ，1024 字 节 的 缓存 ， 效 果 较 
好 ; 1100 字 节 的 缓存 ， 虽 然 数 值 较 大 ， 但 效果 不 好 。 在 Linux 系 统 中 ， 所 用 时 间 差 别 较 少 ， 但 
1100 字 节 缓存 所 用 时 间 仍 高 75% (总 时 间 是 7.4 秒 对 4.25 秒 )。 在 FreeBSD 和 Solaris 系 统 中 ， 相 
差 更 少 ， 仅 10%~20% 左 右 。 

但 是 问题 是 在 实际 系统 中 使 用 与 程序 所 需 大 小 相符 合 的 块 字 节 是 很 难 的 ， 程 序 行 数 的 变 
化 以 及 多 样 化 的 结构 是 很 普遍 的 。 因 此 解决 的 方法 是 在 用 户 空间 中 将 临时 数据 打包 成 块 ， 当 
用 户 空间 满 时 才 写 人 块 中 。 输入 数据 时 采用 相反 操作 : 读数 据 的 过 程 中 将 块 解 包 。 那 就 是 说 ， 
除了 使 用 内 核 缓存 外 ， 还 要 使 用 用 户 缓存 。 因 为 一 个 数据 片 可 能 会 跨越 一 个 块 ， 所 以 会 给 编 
程 带 来 困难 ， 本 书 将 在 下 节 介绍 如 何 处 理 这 个 问题 。 

首先 ， 一 个 恼人 的 问题 : 如 何 知道 块 的 大 小 呢 ? 答案 是 用 户 可 以 使 用 打算 要 容纳 所 要 处 理 
的 文件 的 文件 系统 的 实际 大 小 作为 块 的 大 小 ，9 但 一 些 实验 显示 ， 合 理 的 情况 下 与 文件 大 小 相 
比 ， 较 大 的 缓存 比较 小 的 缓存 效果 好 。 原 因 如 下 : 如 果 缓存 比 实际 的 块 小 ,但 均匀 分 割 文件 后 ， 
内 核 就 可 以 非常 有 效 地 将 数据 打包 到 缓存 ， 并 且 当 缓存 满 时 ， 可 以 对 被 写 的 缓存 进行 协调 。 如 
果 数 值 较 大 并 且 是 缓存 的 整数 倍 ， 那 么 对 内 核 来 说 将 数据 装 入 缓存 仍 是 非常 有 效 的 ， 并 且 使 用 
write 系 统 调用 的 次 数 也 会 较 少 ， 一 般 write 是 影响 速度 的 决定 性 因素 。read 的 情况 也 一 样 。 

因此 ， 目 前 最 有 效 的 做 法 是 使 用 标准 C 规 定 的 宏 BUFSIZz ， 这 个 宏 是 标准 1/0 函 数 (如 
fputs 函 数 ) 使 用 的 。 但 是 由 于 它 是 常数 ， 所 以 对 于 实际 的 文件 系统 来 说 它 不 是 最 佳 的 ， 但 
实验 效果 显示 影响 不 大 。 如 果 空 间 不 足 ， 用 户 甚至 可 以 使 用 512 字 节 的 ， 感 觉 也 还 可 以 。 


2.12.2 用 户 缓存 函数 

在 任何 函数 调用 单元 ， 只 要 需要 都 可 以 很 方便 地 使 用 读 、 写 以 及 查找 函数 等 。 这 些 子 程 
序 自动 控制 缓存 ， 从 不 偏离 块 模型 。 一 个 特别 好 的 这 种 程序 包 是 “标准 I/O 库 ”， 这 个 标准 库 
在 很 多 C 语 言 书 中 都 有 讲述 ， 例 如 [Har2002]。 

为 了 显示 用 户 缓存 包 的 规则 ， 下 面 举 个 简化 的 例子 ， 这 个 例子 的 名 字 叫 BUFIO。 它 支持 
单个 字符 的 读 和 写 ， 但 不 支持 查找 。 首 先是 包 的 用 户 必须 包含 头 文件 bufio.h (原型 未 显示 ): 


typedef struct { 
int fd; /* file descriptor */ 


O 本 书 的 1985 版 本 使 用 了 一 个 4000 字 节 的 文件 ， 并 用 了 差不多 的 时 间 ! 
© 用 户 可 以 使 用 stat 系 统 调用 〔( 见 3.5.1 节 )。 


H2¥ 





char dir; 

ssize_t total; 

ssize_t next; 

unsigned char buf (BUFSIZ) ; 
} BUFIO; 


下 面 是 包 的 实现 (bufio.c ): 





/* direction: r or w */ 
/* total chars in buf */ 
/* next char in buf */ 
/* buffer */ 


BUFIO *Bopen(const char *path, const char *dir) 


{ 
BUFIO *b = NULL; 
int flags; 


switch (dir{0]) ( 
case 'r': 
flags = O_RDONLY; 
break; 
case 'w' 





flags = O_WRONLY | O_CREAT | O_TRUNC; 


break; 

default: 
errno = EINVAL; 
EC_FAIL 

} 


ec_null( b = calloc(1, sizeof(BUFIO)) ) 
ec_negl( b->fd = open(path, flags, PERM_FILE) ) 


b->dir = dir[0]; 
return b; 


EC_CLEANUP_BGN 
free(b); 
return NULL; 

EC_CLEANUP_END 

} 


static bool readbuf (BUFIO *b) 
{ 


ec_negl( b->total = read(b->fd, b->buf, sizeof(b->buf)) ) 


if (b->total == 0) { 
errno = 0; 
return false; 


} 
b->next = 0; 
return true ; 


EC_CLEANUP_BGN 
return false; 

EC_CLEANUP_END 

} 


static bool writebuf (BUFIO *b) 


{ 
ssize_t n, total; 


total = 0; 
while (total < b->next) ( 


ec_negl( n = write(b->fd, 


total += n; 
} 
b->next = 
return true ; 





&b->buf [total], b->next 


- total) 
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EC_CLEANUP_BGN 
return false; 

EC_CLEANUP_END 

i 


int Bgetc(BUFIO *b) 
{ 
if (b->next >= b->total) 
if (!readbuf (b)) { 











if (errno == 0) 
return 
EC_FAIL 


} 
return b->buf [b->next++]; 


EC_CLEANUP_BGN 

return -1; 
§C_CLEANUP_END 
} 


bool Bputc(BUFIO *b, int c) 
{ 
b->buf {b->next++) = c; 
if (b->next >= sizeof (b->buf) 
ec_false( writebuf(b) ) 
return true; 


EC_CLEANUP_BGN 
return false; 

EC_CLEANUP_END 

} 


bool Bclose(BUFIO *b) 
{ 
if (b != NULL) { 
if (b->dir == 'w') 
ec_false( writebuf (b) 
ec_negl( close(b->fd) ) 
free(b); 
} 
return true; 


EC_CLEANUP_BGN 
return false; 

EC_CLEANUP_END 

} 


最 后 使 用 新 包 重新 编写 文件 复制 函数 : 


#include “bufio.h* 


bool copy3(char *from, char *to) 


{ 
BUFIO *stfrom, *stto; 


int c; 


ec_null( stfrom = Bopen(from, 
ec_null( stto = Bopen(to, ‘w*) 


) 


or) 
) 


while ((c = Bgetc(stfrom)) != -1) 


ec_false( Bputc(stto, c) ) 
if (errno != 0) 





) 
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EC_FAIL 
ec_false( Bclose(stfrom) ) 
ec_false( Bclose(stto) ) 
return true; 


EC_CLEANUP_BGN 
(void) Bclose(stfrom) ; 
(void) Bclose(stto) ; 
return false; 

EC_CLEANUP_END 

} 


可 以 注意 到 BUFIO 和 标准 MO 库 的 子 集 非常 相似 。 下 面 是 使 用 库 函数 的 文件 复制 的 版 本 : 


bool copy4(char *from, char *to) 
$ 

FILE *stfrom, *stto; 

int c; 


ec_null( stfrom = fopen(from, *r*) ) 

ec_null( stto = fopen(to, *w") ) 

while ((c = getc(stfrom)) != EOF) 
ec_eof( putc(c, stto) ) 

ec_false( !ferror(stfrom) ) 

ec_eof( fclose(stfrom) ) 

ec_eof( fclose(stto) ) 

return true; 


EC_CLEANUP_BGN 
(void) felose(stfrom) ; 
(void) fclose(stto) ; 
return false; 

EC_CLEANUP_END 

} 


为 了 显示 使 用 用 户 缓存 后 的 优点 ， 表 2-3 以 秒 为 单位 列 出 了 分 别 使 用 BUFIO、 标 准 1O 库 以 
及 直接 的 系统 调用 方法 ( 见 copy2) 进行 文件 复制 的 时 间 。 











表 2-3 ”缓存 和 非 缓存 |/O 的 比较 

方 法 AO R GK it 
BUFIO 

Solaris 1.00 0.51 151 
Linux 1.00 0.28 1.28 
FreeBSD 1.00 0.45 1.45 
标准 IO 

Solaris 0.57 0.24 0.81 
Linux 11.32 0.15 11.48 
FreeBSD 1.02 0.20 1.22 
BUFSIZ 缓 存 

Solaris 0.00 0.52 0.52 
Linux 0.00 0.23 0.23 
FreeBSD 0.01 037 0.38 





* 所 有 时 间 以 秒 为 单位 ， 并 且 在 系统 中 进行 归 一 化 处 理 ， 以 便 系统 上 用 户 BUFIO 时 间 是 1.00。 


通过 使 用 用 户 缓存 ， 几 乎 可 以 得 到 最 完美 的 结果 : 可 以 随意 处 理 数据 ， 哪 怕 一 次 只 有 1 字 
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节 ， 其 系统 时 间 和 使 用 BUFSIZ 缓 存 方法 的 大 致 相同 。 因 此 用 户 缓存 无 疑 是 最 好 的 方法 。 除 了 
Linux 系 统 ， 标 准 1/0 的 时 间 是 最 好 的 ; 除了 速度 较 快 和 更 加 灵活 外 ， 它 实现 了 BUFIO 函 数 的 
功能 。 标 准 1/O 用 户 时 间 在 Linux 系 统 中 是 11.32 秒 ， 此 值 非常 突出 。 一 些 研究 表明 ， 当 在 所 有 
实验 中 都 使 用 gcc 编 译 器 时 ，Linux 系 统 使 用 的 是 stdio.h 中 的 gcc 版 本 ，FreeBSD 使 用 的 是 BSD 
上 的 版 本 ，Solaris 使 用 的 是 系统 V 上 的 版 本 。 看 起 来 需要 注意 的 是 gcc 版 本 。9S 

标准 1/O 库 的 广泛 接收 是 可 笑 的 ， 尽 管 在 任何 单元 对 普通 文件 进行 1/O 操 作 已 经 成 为 UNIX 
内 核 的 显著 特征 ， 然 而 实际 上 ， 这 个 特征 通常 效率 太 低 无 法 使 用 。 


2.13 Iseek 系 统 调用 


lseek 仅 仅 用 于 设置 文件 偏 移 量 ， 这 个 偏 移 量 是 接 下 来 进行 ead、write 或 者 lseek 
所 使 用 的 。 实 际 上 没有 执行 1O 操 作 ， 并 且 没 有 命令 发 往 磁盘 控制 器 ( 记 住 ， 无 论 如何 通 常 都 


有 一 个 高 速 缓存 )。 
lseek 一 设置 和 得 到 文件 偏 移 量 


4#include <unistd.h> 


off_t lseek( 
int fd, /* file descriptor */ 
off_t pos, /* position */ 
int whence /* interpretation */ 


ve 
/* Returns new file offset or -1 on error (sets errno) */ 





参数 whence 可 以 取 下 面 的 任意 一 个 值 : 

SEEK_SET 将 该 文件 偏 移 量 设置 到 pos 参 数 。 

SEEK_CUR ”将 该 文件 偏 移 量 设置 为 其 当前 值 加 pos 和 参数 ，pos 可 为 正 数 、 负 数 或 9，0 是 
查找 当前 文件 偏 移 量 的 方法 。 

SEEK_END ”将 该 文件 偏 移 量 设置 为 文件 长 度 加 pos 参 数 ，pos 可 为 正 数 、 负 数 或 0%，0 是 
将 文件 偏 移 量 设置 为 文件 结尾 的 方法 。 

通常 文件 偏 移 量 的 返回 值 是 非 负 整数 ， 甚 至 比 文件 大 。 如 果 比 文件 大 ， 下 一 次 写 操作 时 将 把 
文件 延长 到 需要 的 大 小 ， 并 将 中 间 的 字 节 填充 为 0。 文 件 偏 移 量 位 于 或 超过 结尾 时 ，read 会 产生 
0 (文件 结尾 ) 返回 。 对 于 write 操 作 超 过 结尾 而 延长 的 文件 ， 如 果 read 成 功 ， 则 会 返回 0 字 节 。 

当 write 超 过 了 文件 的 结尾 时 ， 大 部 分 UNIX 操 作 系 统 实际 上 并 不 存储 其 间 填充 的 都 是 0 
的 块 。 因 此 对 于 磁盘 可 能 造成 这 样 的 结果 ， 可 以 容纳 3 000 000 块 的 磁盘 ， 其 实际 容纳 的 字 节 
超过 了 3 000 000 块 。 当 对 文件 进行 备份 然后 恢复 时 ， 这 种 情况 可 能 会 产生 严重 的 问题 ; 当 必 
须 读 取 文件 并 将 其 传输 到 备份 设备 时 ， 所 写 出 和 写 回 的 数据 会 超过 3 000 000 块 ! 创建 许多 带 
有 空 穴 文件 的 用 户 经 常 能 从 管理 员 那 儿 听 到 类 似 事 件 ， 除 非 备份 系统 有 能 力 识别 这 些 空 穴 。 

使 用 1seek 的 方式 很 多 ,但 最 常用 的 是 以 下 三 种 ， 第 一 种 ， 可 以 用 1seek 查 找 文件 的 某 


个 绝对 位 置 : 


O 这 个 问题 是 在 每 次 putc 时 都 要 检查 线程 的 锁 ， 但 是 其 他 系统 能 智能 地 发 现 不 是 多 线程 的 。 到 用 户 读 这 些 的 


时 候 ， 这 个 问题 也 许 已 经 解决 - 
© 在 C 语 言 以 前 ， 称 之 为 “seek"， 并 且 为 1ong 数 据 类 型 (这 可 以 向 后 追忆 )， 并 且 为 了 得 到 超过 65 535 的 字 
节 ， 需 要 先 用 一 个 seek 函 数 定位 块 ， 然 后 用 第 二 个 seek 函 数 定位 块 中 的 字 节 。 新 系统 调用 多 了 一 个 额外 的 


字母 ， 如 creat 是 少 了 一 个 字母 - 
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ec_negl( lseek(fd, offset, SEEK_SET) ) 
第 二 种 ， 可 以 用 1seek 查 找 文 件 的 结尾 : 
ec_negl( lseek(fd, 0, SEEK_END) ) 
第 三 种 ， 可 以 用 1seek 查 找 文件 偏 移 量 的 当前 位 置 : 


off_t where; 
ec_negl( where = lseek(fd, 0, SEEK_CUR) ) 


其 他 方式 很 少 应 用 。 

据 2.8 节 的 介绍 ， 可 以 知道 ， 内 核 的 大 部 分 查找 工作 都 是 隐 含 的 ， 不 是 显 式 调用 1seek 实 
现 的 。 当 调用 open 时 ， 内 核查 找 第 一 个 字 节 。 当 调用 read 或 write 时 ， 内 核 将 文件 偏 移 量 
增加 读 或 写 的 字 节 数 。 当 采用 O_APPEND 标 志 打开 文件 时 ， 每 次 写 之 前 都 要 查找 文件 的 结尾 。 

为 了 解释 1seek 的 使 用 方法 ， 下 面 给 出 一 个 backward 函 数 ， 它 实现 了 按 逆序 输出 文件 
的 功能 ， 每 次 一 行 。 例 如 ， 如 果 文件 包含 以 下 内 容 : 


dog 
bites 
man 


那么 backward 函 数 将 输出 以 下 内 容 : 


以 下 是 函数 代码 : 


void backward(char *path) 
{ 

char s[256], c; 

int i, fd; 

off_t where; 


ec_negl( fd = open(path, O_RDONLY) ) 
ec_negl( where = lseek(fd, 1, SEEK_END) ) 


i = sizeof(s) - 1; 
sli) = '\0'; 
do { 


ec_negl( where = lseek(fd, -2, SEEK_CUR) ) 
switch (read(fd, &c, 1)) ( 
case 1: 
if (c == '\n') ( 
printf("ts", &s[i]); 
i = sizeof (s) - 1; 


if (i <= 0) { 
errno = E2BIG; 
EC_FAIL 
2 
s[--i] = c; 
break; 
case -1: 
EC_FAIL 
break; 
default: /* impossible */ 
errno = 0; 
EC_FAIL 
4 
} while (where > 0); 
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printf ("%s", &s[i]); 
ec_negl( close(fd) ) 
return; 


EC_CLEANUP_BGN 
EC_FLUSH ("backward") ; 

EC_CLEANUP_END 

} 


在 此 函数 中 需要 注意 两 个 棘手 的 问题 第 一 ， 因 为 read 是 隐 含 地 向 前 查找 文件 ， 为 了 读 
前 面 的 字 节 ， 必 须 向 后 查找 2 个 字 节 ， 为 了 读 文件 ， 必 须 将 文件 偏 移 量 设置 在 文件 结尾 的 后 一 
个 字 节 ; 第 二 ， 在 read 中 ， 因 为 有 文件 结束 返回 值 ， 没 有 文件 开始 返回 值 ， 所 以 必须 观察 文 
件 偏 移 量 (变量 where)， 并 且 在 读 第 一 个 字 节 后 停止 。 换 句 话说 ， 要 等 1seek 将 文件 指针 变 
为 负数 。 但 是 这 种 做 法 是 不 明智 的 : 因为 错误 代码 (EINVAL) 也 能 用 于 指示 其 他 无 效 参数 的 
情况 ， 而 且 一 般 原则 是 ， 最 好 不 使 用 错误 返回 弥补 算法 的 不 足 。 


2.14 pread 和 pwrite 系 统 调 用 






pread 一 一 在 偏 移 处 从 文件 描述 符 读 


#include <unistd.h> 











ssize_t pread( 






int fd, /* file descriptor */ 
void *buf, /* address to receive data */ 
size_t nbytes, /* amount to read */ 
off_t offset /* where to read */ 





) 
/* Returns number of bytes read or -1 on error (sets errno) */ 


Pwrite 一 一 在 偏 移 处 向 文件 描述 符 写 
#include <unistd.h> 


ssize_t pwrite( 
int fd /* file descriptor */ 


const void *buf, /* data to write */ 
size_t nbytes, /* amount to write */ 
off_t offset /* where to write */ 


ve 
/* Returns number of bytes written or -1 on error (sets errno) */ 





pread 和 pwrite 与 在 lseek 之 前 调用 read 和 write 的 功能 相似 ， 除 了 以 下 情况 : 

* 没有 使 用 文件 偏 移 量 ， 因 为 读 和 写 文件 的 位 置 是 由 offset 参 数 明确 给 定 的 。 

“没有 设置 文件 偏 移 最， 实际 上 是 完全 忽略 了 此 参数 。 

0_APPEND 标 志 ( 见 2.8 节 ) 确实 影响 pwrite， 使 其 行为 与 write 完 全 相同 (根据 以 上 
所 说 可 知 ， 此 时 该 函数 忽略 了 offset 参 数 )。 

调用 一 次 肯定 比 调用 两 次 方便 ， 但 是 更 重要 的 是 ，pread 和 pwrite 避 免 了 文件 偏 移 量 改 
变 的 问题 ， 这 个 改变 可 能 是 另 一 个 进程 或 线程 在 1seek 和 read 或 write 之 间 更 改 的 。 回 顾 可 
知 这 种 情况 是 存在 的 ， 如 线程 可 能 会 使 用 同一 个 文件 描述 符 ， 以 及 进程 可 能 复制 文件 偏 移 量 
一 样 ， 这 些 内 容 曾 在 2.2.3 节 中 介绍 过 。 这 也 是 0_APPEND 标 志 所 避免 的 问题 ( 见 2.8 节 )。 因 
为 pread 和 pwrite 不 会 使 用 文件 偏 移 量 ， 所 以 它们 不 会 出 现 文件 位 置 的 错误 。 

为 了 说 明 pread 如 何 工作 ， 下 面 给 出 backward 函 数 ( 上 节 介绍 的 函数 ) 的 另 一 个 版 本 。 
这 个 版 本 更 加 简明 ( 写 和 调试 都 很 容易 )， 因 为 去 掉 了 调用 1seek 减 少 文件 偏 移 量 的 代码 。 
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void backward2(char *path) 
{ 

char s(256], c; 

int i, fd; 

off_t file_size, where; 


ec_negl( fd = open(path, O_RDONLY) ) 

ec_negl( file_size = lseek(fd, 0, SEEK_END) ) 

i = sizeof(s) - 1; 

sli] = '\0'; 

for (where = file_size - 1; where >= 0; where 
switch (pread(fd, &c, 1, where)) { 








case 1: 
if (c "An') { 
printf(*ts", &s[il); 
i = sizeof(s) - 1; 


if (i <= 0) { 
errno = E2BIG; 
EC_FAIL 





default: /* impossible */ 
errno = 0; 
EC_FAIL 
} 
printf("ts", &s[i]); 
ec_negl( close(fd) ) 
return; 
EC_CLEANUP_BGN 
EC_FLUSH ("backward2") ; 
BC_CLEANUP_END 
$ 


2.15 readv 和 writev 系 统 调用 


readv 一 一 非 连 续 的 读 
#include <sys/uio.h> 


ssize_t readv( 
int fd, /* file descriptor */ 
const struct iovec *iov, /* vector of data buffers */ 
int iovent /* number of elements */ 

ve 

/* Returns number of bytes read or -1 on error (sets errno) */ 


writev 一 一 非 连续 的 写 和 人 


#include <sys/uio.h> 


ssize_t writev( 
int fd, /* file descriptor */ 
const struct iovec *iov, /* vector of data buffers */ 
int iovent /* number of elements */ 
ve 
/* Returns number of bytes written or -1 on error (sets errno) */ 
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除了 不 使 用 数据 地 址 的 情况 之 外 ，readv 和 writev 与 read 和 write 相似 ， 它 们 可 以 同 
时 从 多 个 内 存 地 中 读 取 数 据 ， 也 可 以 将 数据 同时 写 人 到 多 个 内 存 地 址 中 ， 有 时 称 它 们 为 散布 
读 和 聚集 写 。 数 据 在 文件 、 管 道 、 套 接 字 或 者 其 他 任何 目的 打开 的 fd 中 仍 是 连续 的 ， 即 它 是 
可 以 分 散 的 进程 内 存 。 . 

换 句 话说 ， 如 果 有 三 个 结构 数据 要 写 ， 那 么 无 需 使 用 三 次 write 来 完成 ， 而 只 需 使 用 一 次 
writev 就 可 以 完成 ; 然而 ， 看 一 下 怪异 的 第 二 个 参数 ， 你 很 快 就 能 看 出 ， 这 两 个 函数 不 太 好 
用 ， 因 此 最 好 在 必要 时 才 用 它们 ， 对 吗 ? 稍 后 将 研究 这 个 问题 ， 这 里 首先 说 明 如 何 使 用 它们 。 

在 调用 这 两 个 函数 之 前 ， 必 须 设置 iov 数 组 (具有 iovcnt 个 元 素 ) ， 以 便 每 一 个 元 素 都 
包含 一 个 指向 数据 和 大 小 的 指针 ， 实 际 上 相当 于 read 或 write 调用 的 第 二 个 和 第 三 个 参数 。 
可 以 把 sturct iovec 定 义 成 这 样 (也 可 能 有 额外 的 、 非 标准 的 成 员 ): 


struct iovec 一 readv 和 writev 的 结构 9 


struct iovec { 
void “iov base; /* base address of data */ 
size_t iov len; /* size of thig piece */ 


vi 





在 程序 中 ， 只 要 有 足够 的 内 存 ， 并 且 正 确 进行 了 初始 化 ， 用 户 就 可 以 声明 一 个 struct 
iovec 类 型 的 数组 ， 或 者 使 用 malloc 函 数 分 配 内 存 ， 或 者 做 其 他 任何 喜欢 的 事情 。 数 组 元 
素 个 数 的 最 大 值 与 所 用 系统 有 关 ， 但 是 至 少 是 16。 在 SUS 系 统 上 ， 如 果 定 义 了 IOV_MAX 符 号 ， 
就 可 以 知道 实际 的 最 大 值 ; 如 果 没 有 定义 该 符号 ， 那 么 调用 带 参数 _sSC_IOV_MAX 的 
sysconf ( 见 1.5.5 节 ) 也 可 以 。 但是， 实际 上 无 论 如 何 设计 readv 和 writev，16 都 足够 了 。 
下 面 的 几 段 代码 来 自 一 个 例 程 ， 该 例 程 利用 writev 写 了 一 个 头 结构 和 两 个 数据 结构 。 首 
结构 声明 如 下 : 


#define VERSION 506 
define STR_MAX 100 


先 


struct header { 
int h_version; 
int h_num_items; 
} hdr, *hp; 
struct data { 
enum {TYPE_STRING, TYPE_FLOAT) d_type; 
union { 
float d_val; 
char d_str(STR_MAX); 
} d_data; 
} dl, d2, *dp; 
struct iovec v[3]; 


(这 个 版 本 只 是 识别 这 个 头 类 型 的 一 些 数字 ) 

接 下 来 ， 我 们 初始 化 头 、 两 个 数据 结构 以 及 向 量 : 
hdr.h_version = VERSION; 
hdr.h_num_items = 2; 
dl.d_type = TYPE_STRING; 
strepy(dl.d_data.d_str, "Some data to write"); 
d2.d_type = TYPE_FLOAT; 
d2.d_data.d_val = 123.456; 


日 sendmsg 和 recvmsg 也 采用 了 相同 的 结构 ; 见 8.63 节 - 
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v[0].iov_base = (char *)&hdr; /* iov_base is sometimes char * */ 
v[0].iov_len = sizeof (hdr); 

v[1].iov_base = (char *)&dl; 

v[1] .iov_len = sizeof (d1); 

v[2] ,iov_base = (char *)&d2; 

vt2] .iov_len = sizeof (d2); 


然后 利用 一 次 writev 调 用 写 入 所 有 3 个 结构 : 


ec_negl( n = writev(fd, v, sizeof(v) / sizeof(v[0])) ) 

注意 ， 在 iov_base 的 初始 化 中 ， 因 为 SUS 将 其 设置 为 void 指针 ， 因 此 我 们 通常 不 需要 
强制 类 型 转换 。 但 是 FreeBSD (以 及 其 他 系统 上 也 可 能 ) 将 其 定义 为 char 指 针 。 强 制 类 型 转 
换 对 两 者 都 适用 。 

为 了 说 明 数 据 在 文件 中 确实 是 连续 的 ， 读 回 数据 ， 并 将 其 输出 ， 但 不 把 数据 读 到 原来 的 
结构 中 ， 而 是 一 个 大 的 匿名 缓存 中 ， 这 个 缓存 采用 合适 类 型 的 指针 (hp 和 dp) HA. ER, 
这 里 是 利用 1seek 函 数 绕 回 到 用 0_RDWR (RER) 打开 的 文件 的 开头 : 


ec_null( buf = malloc(n) ) 
ec_negl( lseek(fd, 0, SEEK_SET) ) 
ec_negl( read(fd, buf, n) ) 
hp = buf; 
dp = (struct data *) (hp + 1); 
printf ("Version = $d\n", hp->h_version) ; 
for (i = 0; i < hp->h_num items; i++) ( 
printé(*#¥d: ", i); 
switch (dp[i].d_type) ( 
case TYPE_STRING: 
printf(*ts\n", dp[i].d_data.d_str); 
break; 
case TYPE_FLOAT: 
printf(*$.3f\n", dpli].d_data.d_val); 
break; 
default: 
errno = 0; 
EC_FAIL 
) 
) 
ec_negl( close(fd) ) 
free (buf); 


输出 如 下 : 


Version = 506 
#0: Some data to write 
#1: 123.456 


除了 显而易见 的 ， 即 除了 其 他 函数 需要 几 次 调用 才能 完成 的 工作 ， 该 函数 一 次 就 能 完成 
之 外 ，readv 和 writev 的 价值 到 底 是 多 少 ? 表 2-4 列 出 了 一 些 计时 测试 数据 ， 这 些 数据 表明 
了 writev 和 write 之 间 写 入 数据 时 间 的 区 别 ，writev 写 16 个 数据 项 ， 每 个 200 字 节 ， 这 样 
做 50 000 次 ， 用 16 次 write 替代 writev 再 这 样 做 。 如 此 ， 每 次 测试 写 一 个 160MB 的 文件 。 因 
为 不 同 的 UNIX 系 统 运行 在 不 同 的 硬件 上 ， 所 以 我 们 将 时 间 统 一 了 一 下 ， 将 显示 writev 的 系 
统 时 间 设 成 了 50 秒 ， 这 正好 是 Linux 机 器 上 的 规定 。S 


O 在 看 此 表 时 ， 记 着 你 不 能 对 操作 系统 (比如 Linux 与 FreeBSD) 的 相对 速度 下 任何 结论 ， 因 为 它们 每 个 是 分 
别 进行 归 一 化 的 。 在 某 种 程度 上 ， 我 们 只 能 关心 每 一 个 系统 中 writev 对 write 的 优势 - 
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2-4 write 与 writev 的 速度 








系统 调用 用 户 系统 
Solaris 

writev 135 50.00 
write 8.45 67.61 
Linux 

writev 0.17 50.00 
write 1.83 27.67 
FreeBSD 

writev 039 50.00 


write 4.90 209.89 





从 表 中 可 以 很 清楚 地 看 到 ， 在 Solaris 系 统 ， 尤 其 在 FreeBSD 系 统 上 ，writev 明 显 优 于 
write。Linux 上 系统 时 间 实 际 上 更 差 。 仔 细 读 Linux 代 码 就 能 知道 原因 ， 代 码 表 明 ， 对 于 文 
件 ，Linux 系 统 仅仅 是 通过 向 量 循环 来 实现 ， 对 向 量 的 每 个 元 素 都 调用 write。 对 于 套 接 字 
(这 是 readv 和 writev 设 计 的 目的 ) Linux 做 得 要 好 一 些 ， 它 把 向 量 一 直 传送 到 了 某 个 非常 低 
级 的 代码 上 。 尽 管 没有 计时 测试 报告 ， 但 从 代码 上 可 以 很 明显 地 看 到 ， 在 套 接 字 上 writev 的 


确 更 有 优势 。 
2.16 同步 /O 


本 节 讲 解 如 何 绕 过 2.12.1 节 介绍 过 的 内 核 缓 在。 并 且 如 果 不 想 深入 研究 内 核 缓存 ， 当 缓存 
被 刷新 至 磁盘 时 ， 如 何 控制 缓存 。 


2.16.1 已 同步 的 与 同步 的 比较 

在 英语 中 “已 同步 的 ”(synchronized) 和 “同步 的 ”(synchronous) 这 两 个 词 意思 是 非常 

近似 的 ， 但 是 在 UNIX IO 中 ， 它 们 的 含义 是 不 同 的 : 

。 已 同步 的 IO: 是 指 对 write 的 调用 (或 者 是 它 的 同类 pwrite 和 writev) 等 到 数据 被 
刷新 至 输出 设备 (主要 是 磁盘 ) 才 返 回 。 如 2.9 节 所 述 ，write 是 非 已 同步 的 
(unsynchronized), ， 通 常 write 将 数据 保留 在 内 核 缓存 中 就 返回 。 如 果 计 算 机 在 此 间 崩 
it, BAER. 

。 同 步 的 IO: 是 指 read (以 及 同类 函数 ) 等 到 能 获得 数据 才 返 回 ， 而 wzite (以 及 同类 
函数 ) 至 少 要 等 到 数据 被 写 到 内 核 缓存 中 才 返 回 ， 并 且 当 1/0 也 是 同步 时 ， 数 据 将 被 写 
到 设备 。 到 目前 为 止 ， 这 里 讲述 的 read、pread、readv、writev、pwrite 以 及 
writev， 所 有 这 些 操作 都 是 同步 的 。 

FAL, i SUNIX IO 是 非 已 同步 的 (unsynchronized) 和 同步 的 。 实 际 上 ， 在 某 种 程度 上 

读 和 写 都 是 异步 的 ， 因 为 这 里 高 速 缓存 在 起 作用 ; 然而 ， 一 旦 把 写 操作 设置 为 已 同步 的 (每 
一 次 调用 强迫 缓存 输出 )， 实 际 等 待 一 次 写 操作 的 返回 就 会 大 大 降低 程序 的 速度 ， 那 时 就 真 的 
需要 异步 写 了 。 你 想 说 : “初始 化 写 操作 后 ， 在 写 的 过 程 中 我 可 以 离开 去 做 有 用 的 事 ， 以 后 在 
需要 的 时 候 再 来 询问 发 生 了 什么 。” 读 ， 尤 其 是 非 顺 序 读 时 ， 某 种 程度 上 总 是 已 同步 的 (如 果 
数据 不 在 缓存 ， 内 核 不 会 伪造 )， 也 不 必 等 待 它们 。 

使 read 和 write 已 同步 化 ， 需 要 设置 open 标 志 ， 或 者 执行 系统 调用 刷新 内 核 缓存 ， 这 

就 是 本 节 的 主题 。 异 步 JO 采 用 了 一 组 完全 不 同 的 系统 调用 (例如 aio_write)， 本 书 将 在 
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3.9 节 对 其 进行 讲述 ， 到 时 将 进一步 清楚 地 阐述 已 同步 的 和 同步 的 概念 。 


2.16.2 刷新 缓存 系统 调用 
最 老 的 、 最 著名 的 ， 也 是 最 低 效 的 已 同步 UO 调 用 是 sync: 


syne 一 一 调度 缓存 刷新 


#include <unistd.h> 


void sync (void); 





sync 所 做 的 是 告诉 内 核 刷新 缓存 ， 这 样 内 核 会 立即 将 事件 加 入 待 做 事情 的 相应 列表 中 。 
但 是 由 于 sync 立 刻 返 回 ， 因 此 刷新 是 迟 后 的 。 所 以 仍 不 能 确定 什么 时 候 缓存 开始 刷新 。 
sync 也 是 比较 条 的 一 一 所 有 已 经 写 过 的 缓存 都 要 刷新 ， 而 不 仅仅 只 是 所 关心 的 相关 文件 缓存 
的 刷新 。 

这 个 系统 调用 的 主要 作用 是 实现 sync 命 令 ， 它 在 UNIX 当 机 时 或 者 可 移动 设备 解 挂 之 前 
运行 。 对 应 用 程序 来 说 ， 有 更 好 的 选择 。 

下 一 个 调用 是 Esync， 其 行为 最 小 程度 上 与 sync 相 似 ， 但 它 只 对 某 个 特定 文件 相关 的 写 
缓存 起 作用 。 如 果 定 义 了 POSIX_FSYNC 选 项 符号 ，SUS2 系 统 以 及 早期 的 系统 就 能 支持 它 。 


fsyne 一 一 对 某 个 文件 执行 调度 或 强制 刷新 缓存 操作 


#include <unistd.h> 


int fsync( 


int fd /* file descriptor */ 
) 
/* Returns 0 on success or -1 on error (sets errno) */ 





这 里 说 “在 最 小 程度 上 "， 是 因为 当 支 持 已 同步 的 1O 选 项 (_POSIX_SYNCHRONIZED_IO) 
时 〈 见 1.5.4 节 )， 保 护 性 能 会 更 强 : 直到 缓存 中 的 数据 已 经 物理 上 写 人 了 设备 控制 器 或 者 检测 


到 了 某 种 错误 后 才 返 回 。9 
下 面 的 函数 option_sync_io 可 用 来 检查 是 否 支 持 该 选项 。 见 1.5.4 节 对 其 所 做 的 解释 。 


OPT_RETURN option_sync_io(const char *path) 
{ 
#if _POSIX_SYNCHRONIZED_IO <= 0 
return OPT_NO; 
#elif _XOPEN_VERSION >= 500 && !defined(LINUX) 
#if idefined(_POSIX_SYNC_IO) 
errno = 0; 
if (pathconf (path, _PC_SYNC_IO) == -1) 
if (errno == 0) 
return OPT_NO; 
else 
EC_FAIL 
else 
return OPT_YES; 


EC_CLEANUP_BGN 


O 数据 仍 有 可 能 还 在 控制 器 的 缓 在 中， 但 通常 即使 UNIX 崩 溃 或 死机 ， 只 要 硬件 仍 在 加 电 和 起 作用 ， 那 么 就 
可 以 从 控制 器 的 缓存 中 将 数据 极其 迅速 地 写 到 存储 介质 中 。 
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return OPT_ERROR; 
EC_CLEANUP_END 
#elif _POSIX_SYNC_IO == -1 
return OPT_NO; 
telse 
return OPT_YES; 
#endif /* _POSIX_SYNC_IO */ 
#elif _POSIX_VERSION >= 199309L 
return OPT_YES; 
telse 
errno = EINVAL; 
return OPT_ERROR; 
#endif /* _POSIX_SYNCHRONIZED_IO */ 
) 


最 后 一 个 同步 调用 是 fdatasync， 它 比 Efsync 执 行 速度 稍 快 ， 因 为 它 只 操作 实际 数据 ， 
而 对 象 文件 修改 时 间 等 信息 不 予 控制 。 对 大 部 分 关键 应 用 来 说 ， 这 就 够 用 了 ， 一 般 高 速 缓存 
写 操作 会 关心 稍 后 的 控制 信息 。fdatasync 仅 是 已 同步 JO 选 项 的 一 部 分 (也 就 是 说 ， 没 有 
类 sync 行 为 )。 


fdatasync 一 对 某 个 文件 的 数据 执行 强制 剧 新 缓存 操作 


#include <unistd.h> 


int fdatasync( 
int fd 


/* file descriptor */ 


ve 
/* Returns 0 or -1 on error (sets errno) */ 





就 已 同步 IJO 选 项 而 论 ，fsync 和 fdatasync 都 能 够 返回 真实 的 LO 错误 ， 它 们 的 errno 
被 设置 为 EIO。 

对 这 些 函 数 需要 指出 的 最 后 一 点 是 : 如 果 不 支持 已 同步 1O， 当 调用 sync 或 者 fsync 时 ， 
实现 上 不 必 执行 任何 操作 (不 引入 fdatasync)。 它 们 也 许 是 空 操作 ， 或 仅 当 作 请 求 。 但 是 
如 果 支 持 该 选项 ， 那 么 尽管 实际 所 发 生 的 已 同步 要 取决 于 设备 驱动 和 设备 ， 但 也 要 求实 现 提 
供 更 高 级 别 的 数据 完整 性 。 


2.16.3 用 于 已 同步 的 open 标 志 

当 应 用 程序 必须 知道 数据 已 经 完成 写 人 工作， 例如 在 向 用 户 报告 数据 库 事务 已 经 完成 提 
交工 作 之 前 ， 一 般 就 需要 调用 fsync 或 者 fdatasync。 但 是 对 于 更 关键 的 应 用 ， 可 以 通过 
open 标 志 来 实现 ， 即 对 每 一 次 write、pwrite 和 writev 都 隐 含 调用 fsync 或 者 
fdatasync. 

在 2.4.4 节 的 表 中 第 一 次 提 到 了 标志 0_SYNC、0_DSYNC 和 0_RSYNC， 这 些 标志 只 是 在 支 
持 已 同步 的 1/O 的 系统 上 才 可 以 得 到 ， 下 面 是 它们 的 功能 : 

O_SYNC: 每 次 调用 write 后 隐 含 调用 fsync (全 部 更 新 )。 

O_DSYNC: 每 次 调用 write 后 隐 含 调用 fdatasync。 

O_RSYNC: 同步 进行 read 和 write， 必 须 和 0_SYNC 或 者 0_DSYNC 标 志 一 起 使 用 。 

(这 里 虽然 以 write 函数 举例 ， 但 同样 适用 于 pwrite 和 writev， 此 外 read 也 与 之 
类 似 )。 
0_RSYNC 标 志 实 际 完成 的 工作 是 确保 节点 的 访问 时 间 以 同步 方式 更 新 ， 这 意味 着 
0_DSYNC 标 志 可 能 什么 也 不 用 做 。 即 使 使 用 0_SYNC 标 志 ， 访 问 时 间 也 很 少 紧迫 到 需要 同步 
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更 新 。 同 样 ， 在 某 些 系统 上 ， 即 使 带 有 0_RSYNC 标 志 ， 也 可 能 会 使 提前 读 无 效 。 
下 面 是 一 个 使 用 0_DSYNC 标 志 的 例 程 ， 在 此 例 程 中 对 已 同步 写 和 非 已 同步 写 进行 了 比较 : 


#define SYNCREPS 5000 
#define PATHNAME "tmp" 


void synctest (void) 
{ 
int i, fd = -1; 
char buf [4096]; 





#if ‘defined (_POSIX_SYNCHRONIZED_IO) || _POSIX_SYNCHRONIZED_IO 
printf ("No synchronized I/O -- comparison skipped\n* 
#else 
/* Create the file so it can be checked */ 
ec_negl( fd-= open("tmp", O_WRONLY | O_CREAT, PERM_FILE) ) 
ec_negl( close(fd) ) 
switch (option_sync_io(PATHNAME)) { 
case OPT_YE: 
break; 
case OPT_NO: 
printf ("sync unsupported on %s\n*, PATHNAME) ; 
return; 
case OPT_ERROR: 
EC_FAIL 








} 
memset (buf, 1234, sizeof (buf)); 


ec_negl( fd = open(PATHNAME, O_WRONLY | O_TRUNC | O_DSYNC) ) 
timestart (); 
for (i = 0; i < SYNCREPS; i++) 
ec_negl( write(fd, buf, sizeof(buf)) ) 
ec_negl( close(fd) ) 
timestop(*synchronized*) ; 


ec_negl( fd = open(PATHNAME, O_WRONLY | O_TRUNC) ) 
timestart (); 
for (i = 0; i < SYNCREPS; i++) 
ec_negi( write(fd, buf, sizeof(buf)) ) 
ec_negl( close(fd) ) 
timestop("unsynchronized") ; 
#endif 
return; 


EC_CLEANUP_BGN 
EC_FLUSH ("backward") ; 
(void) close (fd); 

EC_CLEANUP_END 

e] 


函数 timestart 和 timestop 用 于 得 到 时 间 ， 在 1.7.2 节 已 讲 过 这 两 个 函数 。 注 意 那个 用 
于 检查 路 径 名 的 调用 option_sync_io， 它 要 求 首 先 创建 要 使 用 的 文件 。 三 个 open 调 用 中 
的 选项 有 点 不 平常 : 第 一 个 使 用 了 0_CREAT 而 没有 使 用 0_TRUNC 标 志 ， 因 为 只 想 确 保 那个 文 
件 一 定 存在 (之 后 立刻 关闭 了 它 ) ; 后 两 个 使 用 了 0_TRUNC 标 志 而 没有 使 用 0_CREAT 标 志 ， 


因为 知道 文件 已 经 存在 。 
在 Linux 上 运行 的 结果 如 表 2-5 所 示 (在 Solaris 上 得 到 的 时 间 与 此 相似 ; FreeBSD 上 不 支持 


此 选项 )。 
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表 2-5 已 同步 /0 与 非 已 同步 /O 
M R 用 户 时 间 ” 系统 时 间 实际 时 间 
已 同步 0.03 5.57 266.45 
非 已 同步 0.02 1.13 115 
“时 间 以 秒 为 单位 


(实际 时 间 是 指 所 有 流失 的 时 间 ， 包 括 MO 完 成 任务 时 的 等 待 时 间 。) 
从 表 中 可 以 看 到 ， 已 同步 操作 的 时 间 是 相当 长 的 ， 这 就 是 为 什么 要 使 用 异步 的 


体 如何 使 用 将 在 3.9 节 中 讲述 。8 
2.17 truncate 和 ftruncate 系 统 调用 





truncate 一 一 通过 路 径 截 短 或 加 长 文件 


#include <unistd.h> 

int truncate( 
const char ‘path, /* pathname */ 
off_t length /* new length */ 


i 
/* Returns 0 on success or -1 on error (sets errno) */ 


ftruncate 一 一 通过 文件 描述 符 截 短 或 加 长 文件 


#include <unistd.h> 


int ftruncate( 
int fd, /* file descriptor */ 


off_t length /* new length */ 


); 
/* Returns 0 on success or -1 on error (sets errno) */ 





扩展 文件 很 容易 (这 里 所 说 的 扩展 是 指 ， 无 需 实际 写 和 人 数据 就 可 使 文件 变 大 ) ， 前 面 已 经 
讲述 了 如 何 完成 扩展 文件 : 1seek 可 以 定位 到 超过 文件 结尾 的 某 个 位 置 ， 并 写 人 数据 。 
truncate 和 ftruncate 也 能 实现 这 项 功能 ， 但 是 它们 最 大 的 用 处 是 截断 文件 (缩短 文件 )， 
过 去 在 UNIX 系 统 上 无 法 实现 截断 文件 ， 直 到 它们 出 现 。( 过 去 常常 是 必须 得 写 一 个 全 新 的 文 
件 ， 并 更 名 为 旧 文 件 名 。) 

下 面 是 相当 精心 设计 的 例子 ， 在 此 例子 中 写 操作 使 用 了 不 寻常 的 错误 检验 方法 ， 在 2.9 节 
末尾 已 对 此 内 容 进行 了 解释 ; 


void ftruncate_test (void) 
{ 
int fd; 
const char s[] = "Those are my principles.\n* 
"If you don't like them I have others. \n* 
"\t--Groucho Marx\n"; 


ec_negl( fd = open(*tmp", O_WRONLY | O_CREAT | O_TRUNC, PERM_FILE) ) 


errno = 0; 
ec_false( write(fd, s, sizeof(s)) == sizeof(s) ) 
(void) system("1s -1 tmp; cat tmp"); 

ec_negl( ftruncate(fd, 25) ) 


日 如 果 这 段 内 容 你 看 不 懂 ， 可 以 重读 2.16.1 节 。 
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(void) system(*1s -1 tmp; cat tmp"); 
ec_negl( close(fd) ) 
return; 


EC_CLEANUP_BGN 
EC_FLUSH(*"ftruncate_test"); 

EC_CLEANUP_END 

} 


下 面 是 输出 : 
-rw-r--r-- 1 marc sysadmin 80 Oct 2 14:03 tmp 
‘Those are my principles. 
If you don't like them I have others. 
--Groucho Marx 
-Xw-r--r-- I marc sysadmin 25 Oct 2 14:03 tmp 
Those are my principles. 


ftruncate 也 常用 于 减少 共享 内 存 的 大 小 ，7.14 节 将 介绍 此 内 容 。 


练习 


2.1 改变 2.4.3 节 中 的 lock， 以 便 将 登录 名 保存 到 镇 文件 (使 用 get1ogin 系 统 调用 ， 见 3.5.2 节 )。 当 
lock 返 回 值 为 false 时 ， 诉 加 适当 的 参数 ， 以 便 提供 需要 锁 的 用 户 的 登录 名 。 

2.2 写 一 段 程序 ， 实 现 打开 文件 ， 并 使 用 0_APPEND 标 志向 文件 写 信 一行 文本。 同时 运行 儿 个 并 发 进程 执 
行 此 段 程序 ， 并 保证 文本 行 不 混淆 。 接 着 不 使 用 0_APPEND 标 志 重 新 编写 程序 ， 并 在 每 次 写 之 前 ,使 
用 1seek 函 数 定位 到 文件 的 结尾 。 重 新 运行 那些 并 发 进程 ， 检 查 文本 是 否 会 混淆 。 

2.3 使 用 大 小 分 别 为 2、57、128、256、511、513 和 1024 缓 存 重新 运行 2.12.2 节 的 缓存 IO 计时 测试 程序 。 
如 果 感 兴趣 ， 可 以 实验 其 他 数据 。 如 果 可 以 得 到 UNIX 的 不 同 版 本 ,那么 请 在 不 同 版 本 上 运行 此 实验 ， 
并 将 结果 绘制 到 一 张 表格 内 。 

2.4 编写 打开 文件 的 函数 以 实现 文件 的 读 写 操作 ， 并 将 其 加 入 到 BUFIO 包 中 ( 见 2.12.2 节 )。 

2.5 向 BUFIO 包 中 添加 Bseek 函 数 。 

2.6 写 一 个 不 带 任何 选项 的 cat 命 令 。 为 了 增加 信任 度 ， 也 可 以 带 尽 可 能 多 的 选项 来 实现 ， 但 要 符合 SUS 
的 规范 。 

2.7 和 练习 2.6 的 要 求 一 样 ， 编 写 tail 命 令 。 


第 3 章 高 级 文件 MO 


3.1 概述 


本 章 将 对 第 2 章 遗 留 的 内 容 进行 介绍 。 首 先 将 已 介绍 的 IO 系 统 调用 扩展 到 磁盘 特殊 文件 
上 ， 以 便 观察 文件 系统 的 内 部 结构 。 然 后 介绍 可 以 链接 到 已 存在 的 文件 的 、 附 加 的 系统 调 
用 ; 创建 、 删 除 和 读 目 录 ; 获得 或 者 修改 文件 状态 信息 。 

本 章 使 用 较 多 的 是 第 2 章 的 系统 调用 ， 而 不 是 本 章 介绍 的 高 级 特征 。 但 是 通过 明白 如 何 使 
用 这 些 系 统 调用 ， 就 可 以 对 文件 1O 如 何 工作 有 一 个 更 加 完整 的 理解 。 

本 章 的 程序 示例 比 以 前 介绍 的 程序 内 容 更 加 广博 ， 因 为 这 些 程序 说 明了 文字 所 无 法 表述 
的 内 涵 ， 所 以 值得 细心 研究 。 


3.2 磁盘 特殊 文件 和 文件 系统 


本 节 将 讲述 如 何 对 磁盘 特殊 文件 进行 /O， 这 些 I/O 可 以 实现 对 UNIX 文 件 系统 内 部 的 访问 。 
另外 ， 还 将 介绍 如 何 安 装 和 印 载 文 件 系统 。 


3.2.1 磁盘 特殊 文件 的 MO 

到 现在 为 止 ， 通 过 内 核 文 件 系统 完成 了 独占 IO ， 它 使 用 了 相对 高 层 的 抽象 ， 如 文件 、 目 
录 和 信息 节点 。 和 在 2.12 节 讨论 的 一 样 ， 文 件 系统 是 在 使 用 高 速 缓存 9 的 块 1O 系 统 之 上 实现 
的 。 访 问 块 1/O 系 统 是 通过 块 特殊 文件 ， 或 者 与 磁盘 直接 接口 的 块 设备 实现 的 。 磁 盘 被 看 作 是 
扇 区 大 小 的 倍数 的 一 系列 块 构成 的 ， 一 般 扇 区 大 小 是 512。 

也 许 有 几 个 物理 磁盘 ， 每 一 种 物理 磁盘 可 以 被 分 成 片 ， 每 一 个 片 被 称 作 卷 (volume)、 分 
区 (partition) 或 者 文件 系统 (file system)。( 文 件 系统 的 概念 出 现 混 清 ， 因 为 它 也 是 内 核 的 
一 部 分 。 通 过 上 下 文 可 以 对 本 书 中 所 使 用 的 这 个 术语 所 要 表达 的 意思 有 更 清楚 的 了 解 . ) 

每 一 个 卷 对 应 于 一 个 特殊 文件 ， 一 般 情 况 下 特殊 文件 名 由 设备 名 构成 ， 如 “hd”， 其 后 跟 
随 数字 和 字母 ， 表 明 它 占用 哪 一 个 物理 磁盘 的 哪个 扇 区 。 尽 管 这 些 特殊 文件 不 需要 链接 到 /dev 
目录 ,但 通常 都 这 么 做 。 例 如 ， 在 Linux 上 ， 文 件 /dewhdb3 表 示 第 二 个 物理 硬盘 的 第 三 个 分 区 。 

原则 上 通过 IO 系统 调用 可 以 像 普 通 文件 一 样 操作 磁盘 特殊 文件 ， 可 以 对 它 进 行 打开 (为 
了 读 和 /或 写 数据 )、 读 或 者 写 人 数据 (在 任意 单元 中 )、 定 位 (对 任意 字 节 范围 )， 以 及 关闭 
操作 。 磁 盘 特 殊 文 件 使 用 高 速 缓存 (因为 是 块 特殊 文件 )， 但 是 在 卷 中 没有 目录 、 文 件 、 信 息 
节点 、 访 问 权限 、 所 有 者 、 大 小 、 时 间 等 内 容 。 仅 需要 处 理 一 个 巨大 的 、 已 编号 块 的 数组 。 

但 实际 上 ， 因 为 没有 访问 权限 ， 大 多 数 用 户 不 能 执行 这 些 操作 。 读 取 包 含 其 他 用 户 文件 
的 磁盘 会 危及 它们 的 保密 性 ， 尽 管 当 磁盘 被 当 作 特 殊 文件 看 待 时 ， 看 起 来 很 随意 (没有 按照 
明显 顺序 将 块 分 配给 UNIX 文 件 和 目录 )。 不 通过 内 核 文件 系统 向 磁盘 写 数据 将 造成 更 严重 的 
破坏 。 


O 更 新 的 系统 使 用 的 是 虚拟 内 存 系统 而 不 是 高 速 缓存 ， 但 是 对 内 核 如 何 控制 文件 来 说 ， 高 速 缓存 仍 是 个 有 用 
的 抽象 模型 。 
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另 一 方面 ， 如 果 卷 的 使 用 者 只 是 某 一 个 用 户 ， 不 被 其 他 的 用 户 文件 和 目录 所 使 用 ， 那 么 
将 不 会 有 冲突 。 实 现 数据 库 管理 者 或 者 数据 获取 系统 的 用 户 确实 希望 保留 一 个 卷 ， 这 样 就 可 
以 像 块 特殊 文件 一 样 访问 它 。 当 然 ， 限 制 是 仅 可 提供 这 么 多 的 磁盘 特殊 文件 。 通 常 如 果 一 个 
应 用 程序 使 用 的 是 一 个 磁盘 特殊 文件 ， 那 么 这 个 应 用 程序 可 能 是 这 个 计算 机 上 仅 有 的 一 个 ， 
或 者 肯定 是 主要 的 一 个 。 

可 能 比 块 磁盘 特殊 文件 更 快 的 是 原始 (raw) 磁盘 特殊 文件 ， 这 些 设备 驱动 器 处 理 磁盘 的 
同一 区 域 。 然 而 ， 这 些 原始 磁盘 特殊 文件 是 字符 设备 ， 不 是 块 设备 。 那 意味 着 它们 不 遵从 块 
模型 ， 并 且 不 使 用 高 速 缓存 。 这 样 处 理 起 来 会 更 好 。 

当 对 一 个 原始 特殊 文件 初始 化 读 或 者 写 时 ， 进 程 将 被 锁定 在 内 存 中 (防止 交换 )， 因 此 没 
有 物理 数据 地 址 的 更 改 。 另 外 ， 如 果 硬 件 和 驱动 器 支持 原始 特殊 文件 ， 那 么 磁盘 将 接收 指令 
通过 DMA 传 输 数据 。 数 据 直 接 在 进程 数据 段 和 磁盘 控制 器 之 间 流 动 ， 根 本 不 经 过 内 核 。 一 次 
传输 的 数据 多 半 大 于 一 个 块 。 

通常 ， 原 始 设备 上 IO 的 灵活 性 比 普 通 文件 和 块 特殊 文件 差 ， 需 要 在 成 倍 的 磁盘 扇 区 上 进 
行 JO 操 作 。DMA 硬 件 可 能 需要 进程 的 缓存 地 址 处 在 特定 的 范围 内 ， 定 位 也 可 能 只 在 块 的 范围 
内 实现 。 这 些 限制 不 会 使 面向 数据 库 文件 系统 的 设计 者 感到 麻烦 ， 因 为 他 们 发 现 将 磁盘 当 作 
固定 大 小 的 页 无 论 如 何 是 很 方便 的 。 

到 目前 为 止 ， 我 们 已 经 看 到 UNIX 特 征 随 着 版 本 的 不 同 而 略 有 不 同 ， 然 而 也 随 着 硬件 、 设 
备 驱动 器 甚至 安装 而 变化 。 因 为 计算 机 上 的 IO 硬件 发 生 了 巨大 的 变化 ， 所 以 设备 驱动 器 也 随 
之 发 生 了 变化 。 同 样 ， 实 现成 果 的 目标 也 影响 到 原始 IO 速度 的 重要 性 ， 例 如 在 通用 桌面 系统 
上 ， 它 的 重要 性 已 经 大 打折 扣 了 。 

像 已 同步 JO ( 见 2.16 节 ) 一 样 ， 原 始 IO 也 有 一 个 显著 的 优点 和 缺点 。 显 著 的 优点 是 ， 因 
为 进程 要 等 待 写 完成 ， 又 因为 哪个 进程 拥有 数据 是 没有 疑问 的 ， 所 以 可 以 通过 返回 值 -1 和 
errno 代 码 将 物理 写 错误 告知 给 进程 。 尽 管 有 一 个 定义 的 代码 (EIO)， 但 是 究竟 是 否 传递 取 
决 于 设备 驱动 程序 的 实现 代码 ， 因 此 必须 检查 系统 规范 文档 ， 或 者 甚至 要 看 设备 驱动 程序 的 
代码 才能 确定 。 

原始 IO 的 显著 缺点 是 ， 因 为 进程 要 等 待 读 或 者 写 的 完成 ， 又 因为 UNIX 设 计 允 许 进程 一 
次 只 发 送 一 个 单独 的 read 或 write 系统 调用 ， 所 以 进程 执行 MO 速度 很 快 ， 但 不 是 经 常 这 样 。 
例如 ， 对 于 一 个 带 有 一 个 中 心 数据 库 管理 进程 的 多 用 户 数据 库 应 用 程序 常见 的 安排 )， 如 果 
应 用 原始 IO ， 因 为 每 次 仅 有 一 个 进程 使 用 MO ， 所 以 将 造成 巨大 的 MO 流量 拥塞 。 解 决 方法 是 
使 用 多 个 数据 库 进程 、 多 线程 ( 见 5.17 节 ) 或 者 异步 LO ( 见 3.9 节 )。 

原始 IO 的 另 一 个 不 太 显著 的 缺点 (我 们 可 以 马上 解决 的 ) 是 ， 当 某 个 进程 被 锁定 在 内 存 
中 时 ， 由 于 没有 内 存 空间 把 其 他 进程 交换 进来 ， 所 以 其 他 进程 将 无 法 运行 。 这 有 点 遗憾 ， 因 
为 DMA 并 不 使 用 CPU， 并 且 实 际 上 这 些 进程 可 能 以 另外 的 方式 运行 。 解决 方 法 只 是 添加 更 多 
的 内 存 。 根 据 目前 市 场 价格 ， 没 有 足够 的 内 存 避 免 大 多 数 交换 (即使 不 是 全 部 ) 不 能 成 为 一 
个 借口 ， 特 别 是 在 运行 一 个 足够 完成 原始 IO 的 重要 应 用 程序 的 计算 机 上 。 

表 3-1 概 括 了 在 普通 文件 、 块 磁盘 设备 和 原始 磁盘 设备 之 间 的 功能 区 别 。 





表 3-1 1/0 特 性 比较 
特性 普通 文件 块 磁盘 设备 原始 磁盘 设备 
目录 、 文 件 、 信 息 节点 、 权 限 等 是 不 不 
高 速 缓存 是 是 不 


LO 错误 返回 值 ，DMA E] 不 是 
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为 了 说 明 速度 间 的 差异 ， 在 Solaris 系 统 上 ， 进 行 10 000 次 读 操作 ， 每 次 读 65 536 字 节 。 其 
中 读 了 普通 文件 、 块 磁盘 设备 (/dev/dsk/c0d0p0) 和 原始 磁盘 设备 (/dev/rdsk/c0d0p0)。 和 第 
2 章 类 似 ， 在 表 3-2 中 ， 列 出 了 系统 时 间 、 用 户 时 间 以 及 实际 时 间 ， 以 秒 为 单位 。 因 为 读 原始 
磁盘 设备 时 的 某 些 特征 与 带 有 0_RSYNC 标 志 读 普通 文件 有 些 相似 (详细 解释 见 2.16.3 节 )， 所 
以 也 包含 了 带 有 0_RSYNC 标 志 时 读 普通 文件 的 时 间 。 





表 3-2 1/O 时 间 比 较 
IO 类 型 用 户 时 间 系统 时 间 实际 时 间 
普通 文件 0.40 21.28 441.75 
带 有 0_RSYNC |0_DSYNC 标 志 读 普通 文件 0.25 25.50 412.05 
块 碰 盘 设备 0.38 22.50 562.78 
原始 磁盘 设备 0.10 2.87 409.70 


如 看 到 的 一 样 ， 在 Solaris 上 原始 IO 的 速度 优势 是 很 大 的 ， 在 Linux 系 统 上 ， 得 到 的 结论 
是 相同 的 。 我 不 厌 其 烦 地 对 写 操作 进行 比较 ， 因 为 我 知道 使 用 高 速 缓存 的 两 种 文件 类 型 优势 
比较 明显 ， 也 因为 我 没有 一 个 可 乱 写 的 空 卷 。 当 然 ， 因 为 带 有 高 速 缓存 的 时 间 没 有 包含 物理 
IO 时 间 ， 而 且 包含 的 原始 1O 时 间 太 少 ， 所 以 这 种 比较 也 不 公平 。 


3.2.2 对 文件 系统 的 低级 访问 

通过 像 磁盘 设备 一 样 读 出 文件 系统 ， 可 以 查看 文件 系统 的 内 部 结构 (假设 用 户 具 有 读 权 
限 )， 这 是 有 启发 的 。 在 应 用 程序 中 ， 用 户 可 能 从 来 不 做 这 个 事情 ， 但 是 那 是 低级 文件 工具 如 
fsck 做 的 工作 。 

以 下 系统 的 文件 系统 设计 都 比 UNIX 系 统 多 : Solaris 上 的 UNIX 文 件 系统 (UNIX File 
System，UFS)、FreeBSD 上 的 快速 文件 系统 (Fast File System, FFS) (也 称 作 UFS)， 以 及 
Linux 系 统 上 的 ReiserFS 和 Ext2fs。 这 里 并 没有 严格 地 遵循 早期 的 《20 世纪 70 年 代 ) UNIX 文 件 
系统 和 FFS。 

原始 磁盘 设备 被 当 作 固定 大 小 的 块 序列 ， 比 如 2048 字 节 。( 对 于 这 个 讨论 来 说 实际 大 小 并 
不 重要 。) 大 约 第 一 个 块 保留 给 启动 程序 (如 果 磁 盘 是 可 启动 的 )、 磁 盘 标号 以 及 其 他 类 似 的 
管理 信息 。 

文件 系统 准确 地 从 带 有 超级 块 (superblock) 磁盘 头 的 固定 偏 移 量 处 开始 ， 它 包含 多 种 结 
构 信息 ， 如 信息 节点 的 数目 、 卷 中 包含 块 的 总 数 以 及 自由 块 的 链接 表 头 等 。 每 个 文件 ( 普通 
文件 、 目 录 、 特 殊 文件 等 ) 使 用 一 个 信息 节点 ， 并 且 必 须 至 少 有 一 个 目录 链接 此 文件 。 磁 盘 
上 有 数据 的 文件 (普通 文件 、 目 录 和 符号 链接 ) 也 有 由 信息 节点 指向 的 数据 块 。 信 息 节点 是 
从 超级 块 指向 的 位 置 开 始 的 。 

信息 节点 0 和 1 是 没 用 的 8， 信 息 节点 2 是 为 根 目录 (/) 保留 的 ， 因 此 当 给 定 内 核 一 个 绝对 
路 径 时 ， 内 核 可 以 从 一 个 已 知 的 位 置 开 始 。 其 他 的 索引 节 号 没有 特殊 的 意义 ， 可 以 根据 需要 
将 其 他 节点 分 配给 文件 。 

下 面 这 个 专门 针对 FreeBSD 上 的 FFS 实 现 的 程序 给 出 了 一 种 通过 读 磁盘 设备 /dev/ad0s18 访 
问 超级 块 和 信息 节点 的 方法 ， 这 里 /dev/ad0s1g 恰 巧 是 包含 /user 目 录 树 的 原始 磁盘 设备 。 这 可 
以 通过 执行 mount 命 令 看 到 (FFS 已 知 为 “usf” 类 型 ): 


O 信息 节点 从 1 开始 编号 ,允许 使 用 0 是 指 “ 没 有 信息 节点 ”( 例 如 空 目录 )。 历 史上 ， 信 息 节点 1 用 于 收集 坏 
的 磁盘 块 。 
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$ mount 

/dev/ad0sla on / (ufs, NFS exported, local) 
/dev/ađ0s1f on /tmp (ufs, local, soft-updates) 
/dev/ad0s1g on /usr (ufs, local, soft-updates) 
/dev/ad0sle on /var (ufs, local, soft-updates) 
procfs on /proc (procfs, local) 


下 面 是 程序 : 


#ifndef FREEBSD 
#error "Program is for FreeBSD only." 
#endif 


#include "defs.h" 
#include <sys/param.h> 
#include <ufs/ffs/fs.h> 
#include <ufs/ufs/dinode.h> 


#define DEVICE */dev/ad0sig" 


int main(int argc, char *argv[]) 
t 
int fd: 
long inumber; 
char sb_buf[((sizeof(struct fs) / DEV_BSIZE) + 1) 
struct fs *superblock = (struct fs *)sb_buf; 
struct dinode *d; 
ssize_t nread; 
off_t fsbo, fsba; 
char *inode_buf; 
size_t inode_buf_size; 


if (arge < 2) { 
printf ("Usage: inode n\n"); 
exit (EXIT_FAILURE) ; 
} 
inumber = atol(argv(1]); 
ec_negl( fd = open(DEVICE, O_RDONLY) ) 
ec_negl( lseek(fd, SBLOCK * DEV_BSIZE, SEEK_SET) 
switch (nread = read(fd, sb_buf, sizeof(sb_buf))) 
case 0: 
errno = 0; 
printf ("EOF from read (1)\n"); 
EC_FAIL 
case 





EC_FAIL 

default: 
if (nread 
errno 


sizeof(sb_buf)) ( 
0; 






* DEV_BSIZE); 


{ 


printf ("Read only %d bytes instead of d\n", nread, 


sizeof (sb_buf) ); 
EC_FAIL 
) 
} 
printf ("Superblock info for %: 





n", DEVICE); 


printf ("\tlast time written = %s*, ctime(&superblock->fs_time) ); 
(long) superblock->fs_size) ; 


printf ("\tnumber of blocks in fs = %ld\n", 

printf ("\tnumber of data blocks in fs = %1d\n", 
(long) superblock->fs_dsize) ; 

printf£("\tsize of basic blocks in fs = %ld\n", 
(long) superblock->fs_bsize) ; 
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print£(*\tsize of frag blocks in fs = $1d\n", 
(long) superblock->fs_fsize) ; 
printf(*\tname mounted on = $s\n", superblock->fs_fsmnt) ; 


inode_buf_size = superblock->fs_bsize; 
ec_null( inode_buf = malloc(inode_buf_size) ) 


fsba = ino_to_fsba(superblock, inumber) ; 
fsbo = ino_to_fsbo(superblock, inumber) ; 


ec_negl( lseek(fd, fsbtodb(superblock, fsba) * DEV_BSIZE, SEEK_SET) ) 
switch (nread = read(fd, inode_buf, inode_buf_size)) { 
case 0: 
errno = 0; 
printf(*EOF from read (2)\n"); 
EC_FAIL 
case -1: 
EC_FAIL 
default: 
if (nread != inode_buf_size) { 
errno = 0; 
printf ("Read only %d bytes instead of d\n", 
nread, inode_buf_size) ; 
EC_FAIL 


} 


d = (struct dinode *)&inode_buf[fsbo * sizeof(struct dinode) }; 
printf£("\ninumber %ld info:\n", inumber); 

print£("\tmode = 0%o\n", d->di_mode 
printf(*\tlinks = %d\n", d->di_nlink); 

printf("\towner = d\n", d->di_uid); 

print£("\tmod. time = $s", ctime((time_t *)&d->di_mtime)); 
exit (EXIT_SUCCESS) ; 





EC_CLEANUP_BGN 
exit (EXIT_FAILURE) ; 
EC_CLEANUP_END 
i 
下 面 是 sb_buf 的 复杂 声明 : 


char sb_buf[((sizeof(struct fs) / DEV_BSIZE) + 1) * DEV_BSIZE]; 


要 将 其 大 小 上 含 人 为 偶数 扇 区 ， 因 为 这 是 在 FreeBSD 上 读 原始 磁盘 设备 的 一 个 要 求 。 


第 一 个 1seek 函 数 定位 到 SBLOCK*DEV_BSIZE, 这 是 超级 块 的 位 置 。 SBLOCK 恰 好 是 16， 
DEV_BSI2ZE 是 扁 区 大 小 为 512 字 节 ， 因 为 大 部 分 磁盘 的 扇 区 都 是 这 个 数 。 超 级 块 总 是 从 文件 
系统 起 始 部 分 的 第 16 个 遍 区 开始 。 第 一 组 printf 函 数 输出 的 是 较 长 的 Es 结构 中 的 一 些 字段， 


输出 结果 如 下 : 


Superblock info for /dev/ad0sig: 
last time written = Mon Oct 14 15:25:25 2002 
number of blocks in fs = 1731396 
number of data blocks in fs = 1704331 
size of basic blocks in fs = 16384 
size of frag blocks in fs = 2048 
name mounted on = /usr 





为 这 个 算法 在 FFS 磁 盘 上 很 复杂 ， 所 以 接 下 来 程序 使 用 了 某 个 头 文件 定义 的 宏 来 查找 作为 


其 参数 (argv[1]) 被 提供 的 信息 节点 。 通 过 带 有 i 选 项 执行 1s 命 令 ， 得 到 了 文件 的 索引 节 号 : 
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$ ls -li x 
383642 -rwxr-xr-x l marc marc 11687 Sep 19 13:29 x 


下 面 是 信息 节点 383642 的 其 余 输 出 信息 : 


inumber 383642 info: 
mode = 0100755 
links = 1 
owner = 1001 
mod. time = Thu Sep 19 13:29:30 2002 


因为 实际 希望 的 是 解释 普通 文件 和 特殊 文件 间 有 怎样 的 联系 ， 所 以 不 打算 在 低级 磁盘 访 
问 上 花 太 多 的 时 间 。 如 果 你 有 FreeBSD 系 统 的 话 ， 也 许 会 喜欢 把 程序 稍 作 修改 以 显示 该 系统 


上 的 其 他 信息 ， 或 将 其 移植 到 其 他 UNIX 系 统 上 。 


3.2.3 statvfs 和 fstatvfs 系 统 调 用 


在 块 或 原始 磁盘 设备 上 找到 超级 块 后 ， 通 过 read 读 取 超 级 块 是 很 有 意义 的 ， 但 是 在 
SUS1 兼 容 系统 上 ， 有 更 好 的 方法 ， 它 们 使 用 了 statvfs 和 fstatvfs 系 统 调用 : 


statvfs 一 一 通过 路 径 得 到 文件 系统 信息 
#include <sys/statvfs.h> 
int statvfs( 


const char ‘path, /* pathname */ 
struct statvfs *buf /* returned info */ 


3 
/* Returns 0 on success or -1 on error (sets errno) 


” 


fstatvfs 一 一 通过 文件 描述 符 得 到 文件 系统 信息 


#include <sys/statvfs.h> 
int fstatvfs( 
int fd, /* file descriptor */ 
struct statvfs *buf /* returned info */ 


) 
/* Returns 0 on success or -1 on error (sets errno) */ 





通常 可 以 使 用 statvfs， 它 返回 关于 文件 系统 的 信息 包含 有 第 一 个 参数 给 出 的 路 径 。 如 
果 文件 是 打开 的 ， 则 可 以 使 用 fstatvfs， 也 可 以 得 到 同样 的 信息 。 

标准 中 定义 了 statvfs 结 构 的 字段 ， 但 实现 时 不 要 求 支持 所 有 这 些 字段 。 大 多 数 实现 也 
支持 附加 的 字段 和 f_flag 字 段 的 附加 标志 。 用 户 只 能 通过 查看 系统 的 联机 资料 了 解 相关 规定 。 
即使 实现 不 支持 标准 字段 ， 字 段 也 照样 存在 ， 只 是 不 包含 有 意义 的 信息 。 


struct statvfs 一 一 statvfs 和 ftatvfs 的 结构 


struct statvfs { 
unsigned long f_bsize; block size */ 
unsigned long f_frsize: fundamental (fblock) size */ 
fsblkcnt_t f_blocks; total number of fblocks */ 
fsblkcnt_t f_bfree; number of free fblocks */ 
fsblkcnt_t f_bavail; number of avail. fblocks */ 


fsfilcent_t f_files; total number of i-numbers */ 
fsfilcnt_t f_ffree; number of free i-numbers */ 
fsfilent_t f_favail; number of avail. i-numbers */ 
unsigned long f_fsid; file-system ID */ 

unsigned long f_flag; * flags (see below) */ 
unsigned long f_namemax; max length of filename */ 
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下 面 是 对 此 结构 的 一 些 解释 : 

"为 了 加 快 访问 ， 大 部 分 文件 系统 为 文件 分 配 相 当 大 的 块 空间 ， 其 大 小 由 字段 +_bsize 定 
义 ， 但 为 了 避免 浪费 空间 ， 以 较 小 的 碎片 块 结束 文件 。 碎 片 块 大 小 称 做 基本 块 大 小 ， 其 
大 小 由 字段 上 _frsize 定 义 , 一 般 简 称 为 fblock。fsblkcnt_t 类 型 字段 以 fblock 为 单位 ， 
因此 为 了 得 到 总 空间 字 节 数 ， 可 以 将 f_frsize 与 f_blocks 相 乘 得 到 。 

“fsblkcnt_t 和 fsfilcnt_t 是 无 符号 类 型 ， 然 而 在 别 的 方面 却 可 以 定义 。 典 型 情况 

下 ， 它 们 是 long 型 或 者 long long 型 ， 如 果 需 要 显示 一 个 类 型 并 且 有 C99 编 译 器 ， 可 

把 它 强制 转换 为 intmax_t 类 型 ,使 用 printf 的 格式 %ju; 否则 ， 强 制 转换 为 
unsigned long long 型 ,并 使 用 $11u 格 式 。 

“SUS 标 准 仅 为 f_flag 字 段 规 定 了 两 个 标志 ， 它 们 指出 了 文件 系统 如 何 安装 : 

如 果 是 只 读 方式 ， 则 设置 ST_RDONLY 标 志 ， 并 且 如 果 在 可 执行 的 文件 上 忽略 了 set-user- 
ID-on-execution 和 set-group-ID-on-execution 位 ， 则 设置 ST_NOSUID (安全 预防 )。 

。 将 术语 “可 获得 的 ”( available) 应 用 在 f_bavail 和 f_favail 字 段 上 ， 是 指 “ 对 非 超 

级 用 户 进程 可 用 "。 相 对 于 “空闲 ”字段 ， 它 比较 小 ， 以 便当 空闲 空间 紧张 时 ， 为 性 能 
受 损 的 系统 保留 一 个 最 少量 的 空闲 空间 。 

SUS 的 前 身 FreeBSD 不 支持 statvfs 和 fstatvfs 函 数 ， 但 是 它 有 一 个 相似 的 statfs 函 
数 ， 它 的 结构 名 不 同 ， 大 部 分 字段 也 不 相同 。 对 基本 信息 同时 采用 statvfs 与 statfs, 在 
某 种 程度 上 讲 是 可 能 的 ， 像 下 面 的 程序 示例 那样 。 

#if _XOPEN_SOURCE >= 4 

#include <sys/statvfs.h> 


define FCN_NAME statvfs 
#define STATVFS 1 


#elif defined (FREEBSD) 
#include <sys/param. h> 
#include <sys/mount .h> 
#define FCN_NAME statfs 


felse 
#error "Need statvfs or nonstandard substitute” 


#endif 


void print_statvfs(const char *path) 


{ 
struct FCN_NAME buf; 


if (path == NULL) 
path = *.*; 
ec_negl( FCN_NAME(path, &buf) ) 
#ifdef STATVFS 
printf ("block size = $lu\n*, buf.f_bsize); 
printf ("fundamental block (fblock) size = %lu\n", buf.f_frsize); 
#else 
printf£(*block size = %lu\n", buf.f_iosize); 
printf ("fundamental block size = %lu\n", buf.f_bsize); 
#endif 
printf ("total number of fblocks = %llu\n", 
(unsigned long long)buf.f_blocks) ; 
printf ("number of free fblocks = %llu\n", 
(unsigned long long)buf.f_bfree); 
printf ("number of avail. fblocks = %1lu\n", 
(unsigned long long) buf.f_bavail); 
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printf£("total number of i-numbers = %1lu\n", 
(unsigned long long)buf.f_files) 

printf ("number of free i-numbers = %1lu\n", 
(unsigned long long)buf.f_ffree); 

#ifdef STATVFS 

printf ("number of avail. i-numbers = #1llu\n", 
(unsigned long long)buf.f_favail): 

printf ("file-system ID = tlu\n", buf.f_fsid); 

printf ("Read-only = s\n", 
(buf.£_flag & ST_RDONLY) == ST_RDONLY ? "yes" : “no*); 

printf ("No setuid/setgid = %s\n", 
(buf.£_flag & ST_NOSUID) == ST_NOSUID ? "yes" : “no” 


printf ("max length of filename = %lu\n", buf. f_namemax); 


#else 








printf ("Read-only = %s\n", 
(buf.f_flags & MNT_RDONLY) == MNT_RDONLY ? “yes" : "no"); 
printf£("No setuid/setgid = %s\n", 
(buf.f_flags & MNT_NOSUID) == MNT_NOSUID ? "yes" : “no"); 
#endif 
printf ("\nFree space = %.0f%%\n", 
(double)buf.f_bfree * 100 / buf.f_blocks); 
return; 


EC_CLEANUP_BGN 
EC_FLUSH (*print_statvfs") ; 

EC_CLEANUP_END 

} 


下 面 是 在 Solaris 系 统 上 包含 /home/marc/aup 目 录 的 文件 系统 的 输出 结果 (Linux 系 统 具 有 相似 
的 结果 ): 


block size = 8192 

fundamental block (fblock) size = 1024 
total number of fblocks = 4473046 
number of free fblocks = 3683675 
number of avail. fblocks = 3638945 
total number of i-numbers = 566912 
number of free i-numbers = 565782 
number of avail. i-numbers = 565782 
file-system ID = 26738695 
Read-only = no 

No setuid/setgid = no 

max length of filename = 255 


Free space = 82% 
下 面 是 在 FreeBSD 系 统 上 目录 /user/home/marc/aup 的 输出 结果 : 


block size = 16384 
fundamental block size = 2048 
total number of fblocks = 1704331 
number of free fblocks = 1209974 
number of avail. fblocks = 1073628 
total number of i-numbers = 428030 
number of free i-numbers = 310266 
Read-only = no 

No setuid/setgid = no 


Free space = 71% 
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statvfs (或 者 statfs) 系统 调用 是 众所周知 的 df (“MASA”) 命令 的 核心 ( 见 练 
习 3.2)。 下 面 是 它 在 FreeBSD 系 统 上 的 报告 : 


$ af /usr 
Filesystem 1K-blocks Used Avail Capacity Mounted on 
/dev/ad0slg 3408662 988696 2147274 32% /usr 


所 报告 的 Ik-blocks 值 3408662 等 于 示例 程序 print_statvfs 中 显示 的 2k-blocks 值 1704331。 
同样 在 信息 节点 中 也 有 读 取 信息 的 标准 方式 ， 因 此 没有 必要 按照 上 节 中 的 方式 读 取 设备 
文件 ， 在 3.5 节 将 讲述 这 种 方式 。 


3.2.4 安装 和 印 载 文件 系统 

一 个 UNIX 系 统 可 以 拥有 多 个 磁盘 文件 系统 (硬盘 、 软 盘 、CD-ROM、DVD 等 ), 但 是 它 
们 都 可 以 从 根 目录 开始 的 单一 目录 树 中 得 到 。 将 文件 系统 连接 到 一 个 已 存在 的 层次 结构 叫做 
安装 ， 断 开 连 接 叫做 却 载 。 图 3-1 显 示 了 一 个 大 的 文件 系统 ， 包 含 根 目录 (信息 节点 2， 带 有 
目录 项 x 和 y) 和 一 个 较 小 的 未 连接 的 文件 系统 ， 也 有 自己 的 根 目录 ， 也 编号 为 2。( 以 前 讲 到 2 
通常 是 根 目录 的 索引 节 号 。) 





图 3-1 两 个 断 开 连接 的 文件 系统 


为 了 安装 第 二 个 文件 系统 ， 需 要 两 个 东西 : 设备 名 ， 这 里 用 的 是 /dev/ad0slm; 你 想 连 接 
到 的 目录 ， 这 里 选择 /y/a (信息 节点 221)。 下 面 是 创建 图 3-2 中 树 的 命令 : 


# mount /dev/ad0slm /Y/a 






devados1g 





图 3-2 已 安装 的 文件 系统 
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目录 /y/a 中 以 前 的 内 容 现在 被 隐藏 ， 所 有 指向 那个 目录 的 内 容 都 自动 指向 了 节点 ad0slm:2， 
ad0slm:2 表 示 的 是 “ad0slm 设 备 上 的 信息 节点 2"。 因 此 , 现在 可 以 用 /y/a/f 访 问 节点 ad0slm:107。 
当 印 载 ad0s1lm 时 ， 其 内 容 将 不 可 访问 ， 这 时 ad0slg:221 中 以 前 的 内 容 将 再 现 。 旨 

每 个 UNIX 系 都 有 一 个 只 有 超级 用 户 才能 调用 的 系统 调用 mount 和 它 的 相反 调用 umount 
(有 了 时 称 作 unmount )， 但 是 它们 的 参数 和 确切 的 功能 随 系统 的 不 同 而 不 同 。 像 其 他 仅 有 超级 
用 户 才能 调用 的 函数 一 样 ， 它 们 没有 被 标准 化 。 实 际 上 ， 这 些 系统 调用 常用 于 实现 mount 和 
umount 命 令 ， 并 且 几 乎 从 不 直接 调用 。 举 一 个 例子 ， 下 面 是 Linux 系 统 的 一 个 对 照 表 ， 对 其 
也 不 准备 详细 讲述 : 


mount 一 一 安装 文件 系统 〈 非 标准 的 ) 
#include <sys/mount.h> 


int mount ( 
const char *source, /* device */ 
const char *target, /* directory */ 
const char *type, /* type (e.g., ext2) */ 
unsigned long flags, /* mount flags (e.g., MS_RDONLY) */ 


const void *data /* £ile-system-dependent data */ 


Ve 
/* Returns 0 on success or -1 on error (sets errno) */ 


umount 一 一 印 载 文件 系统 ( 非 标准 的 ) 
#include <sys/mount.h> 


int umount ( 
const char *target /* directory */ 


) 
7* Returns 0 on success or -1 on error (sets errno) */ 





正常 情况 下 ， 当 文件 或 目录 正在 使 用 时 ，umount 会 出 现 EBUSY 错 误 。 通常 有 一 个 可 替代 
的 系统 调用 umount2 ， 访 函数 的 第 二 个 参数 实现 强制 执行 卸载 ， 有 时 当 系 统 必须 关闭 时 ， 该 
参数 是 必需 的 。 

从 应 用 编程 的 观点 来 看 ， 除 了 一 种 情况 之 外 ， 只 要 有 工作 的 路 径 名 ， 一 般 不 关心 将 要 访 
问 的 给 定 的 文件 或 者 目录 是 否 在 与 其 他 文件 或 目录 分 开 安装 的 文件 系统 上 。 实 际 上 ， 也 许 是 
在 引导 序列 期 间 ， 所 有 可 访问 的 文件 系统 (甚至 是 目录 ) 必须 同时 安装 。 有 一 种 情况 与 链接 
有 关 ， 下 一 节 将 介绍 这 个 内 容 。 


3.3 硬 链 接 和 符号 链接 

包含 名 字 和 索引 节 号 的 目录 记录 项 称 作 大 链接 (hard link)。 其 他 种 类 的 链接 称 作 符号 链 
接 (symbolic link)， 马 上 将 讲述 这 个 内 容 。 图 3-3 图 解 了 这 两 种 链接 。( 加 括号 内 的 十 六 进 制 
数 是 设备 ID， 以 后 将 对 其 进行 介绍 )。 


3.3.1 创建 硬 链 接 (link 系 统 调用 ) 

无 论 创建 什么 类 型 的 文件 (包括 目录 )， 都 可 以 得 到 一 个 硬 链接 。 通 过 1ink 系 统 调用 可 
得 到 非 目 录 的 8 附加 的 硬 链接 : 

日 ”实际 上 目录 中 没有 内 容 , 唯 一 的 目的 是 当 作 安 装点 ， 但 是 系统 函数 有 时 允许 使 用 它 隐 臣 目录 。 


O 在 某 些 系统 上 ， 超 级 用 户 可 以 链接 到 已 存在 目录 ， 但 是 进行 这 种 操作 的 结果 是 ， 可 能 会 导致 目录 结构 不 再 
是 树 结构 ， 会 使 系统 管理 复杂 化 。 
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link 一 一 建立 一 个 硬 链接 


#include <unistd.h> 


int link( 
const char *oldpath, /* old pathname */ 
const char *newpath /* new pathname */ 


ve 
/* Returns 0 on success or -1 on error (sets errno) */ 


/dev/ad0s19 
(0xE407) 
2 107 














图 3-3 硬 链接 和 符号 链接 


第 一 个 参数 oldpath 必 须 是 已 经 存在 的 链接 , 它 提供 所 要 使 用 的 索引 节 号 。 第 二 个 参数 
newpath 表 示 新 链接 的 名 字 。 在 所 有 方式 下 这 些 链 接 都 是 平等 的 ， 因 为 UNIX 没 有 主 链接 和 
次 链接 的 概念 。 进 程 必 须 对 包含 新 链接 的 目录 具有 写 权限 。 第 二 个 参数 指定 的 链接 必须 是 不 
存在 的 , Link 不 能 更 改 已 经 存在 的 链接 。 如 果 出 现 这 种 情况 ， 必 须 首先 通过 unlink ( 见 2.6 
节 ) 移 去 旧 链 接 ， 或 通过 rename 系 统 调 用 更 改 链接 名 ( 见 3.3.2 节 )。 


3.3.2 重 命名 文件 或 目录 (rename 系 统 调用 ) 


乍 一 看 ， 重 命名 文件 很 简单 ， 仿 佛 是 指 “ 更 改 目录 记录 项 中 的 名 字 即 可 "。 即 只 需要 通过 

link 函 数 创建 第 二 个 硬 链接 ， 并 通过 unlink 函 数 移 去 旧 链 接 ， 但 是 有 许多 复杂 的 情况 : 

。 如 果 文 件 是 目录 ， 就 不 能 为 其 创建 第 二 个 硬 链 接 。 

。 有 时 需要 将 新 名 字 放 在 不 同 的 目录 中 ， 如 果 两 者 在 同一 个 文件 系统 ， 这 没有 问题 ,但 当 
二 者 不 在 同一 文件 系统 时 ， 会 出 现 很 大 的 问题 ， 因 为 Link 函 数 只 能 工作 在 同一 文件 系 
统 中 。 当 然 也 可 以 在 另 一 个 目录 中 创建 一 个 符号 链接 (下 一 节 介 绍 )， 但 是 那 不 是 大 多 
数 人 认为 的 “rename” 含 义 。 

* 在 两 个 文件 系统 之 间 如 果 将 要 “更 名 ”( 实 际 上 是 移动 ) 的 是 个 目录 ， 用 户 必 须 移动 访 
目录 下 的 所 有 子 目 录 。 仅 移动 空 目录 是 很 受 限 制 的 。 

。 如 果 有 多 个 硬 链 接 ， 并 且 在 同一 个 文件 系统 中 更 名 文件 ， 这 是 允许 的 ， 因 为 它们 参考 的 
索引 节 号 不 会 更 改 。 但 当 设 法 将 文件 移动 到 另 一 个 文件 系统 时 ， 旧 链接 会 失效 。 因 为 必 
须 复制 文件 然后 再 解 链 最 初 的 链接 ， 所 以 可 能 发 生 的 情况 是 : 除了 被 移动 的 硬 链接 指向 
该 旧 文 件 外 ， 旧 文件 将 保留 与 其 他 硬 链接 的 联系 ， 出 现 这 种 情况 是 很 精 糕 的 。 

* 如 果 符 号 链接 与 路 径 相 联 ， 而 用 户 改变 了 那个 路 径 ， 则 该 符号 链接 将 成 为 死 点 ， 这 样 也 
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NEE. 

如 果 仔 细 地 思考 该 问题 ， 有 可 能 会 发 现 更 多 的 复杂 问题 ， 但 是 你 要 明白 ， 这 些 就 已 经 够 
头疼 了 。 那 就 是 为 什么 实现 “更 名 ”文件 和 目录 的 UNIX 系 统 mv 命 令 复杂 的 原因 。 但 是 它 仍 
然 不 能 处 理 最 后 的 两 个 问题 。 

无 论 如 何 ，mv 命 令 的 功能 已 经 很 好 了 ， 但 是 需要 以 下 替代 机 制 之 一 来 移动 一 个 文件 系统 
中 的 目录 : 

。 总 是 复制 目录 和 它 的 子 目 录 ， 跟 着 删除 旧 目 录 ， 即 使 只 在 它 的 父 目录 中 重 命名 旧 目 录 。 

。1ink 系 统 调用 可 以 对 目录 操作 ， 即 使 只 限制 于 超级 用 户 。( 可 以 通过 设置 用 户 ID 位 临时 

取得 超级 用 户 的 权限 来 运行 mv 命令 。) 

。 使 用 可 以 在 一 个 文件 系统 中 更 名 目录 的 新 的 系统 调用 。 

第 一 种 替代 不 好 ， 因 为 ， 如 果 用 户 想 做 的 只 是 改变 目录 名 中 的 几 个 字符 的 话 ， 那 么 这 样 
做 工作 量 就 太 大 了 ! POSIX 系 统 取消 了 第 二 种 替代 ， 而 支持 第 三 种 替代 一 一 即使 用 新 的 
rename RWWA., 实际 上 ，rename 并 不 新 一 一 它 在 标准 C 和 BSD 中 已 经 存在 了 ， 这 是 无 需 
完全 复制 或 者 断 开 链接 就 可 更 名 目录 的 唯一 方法 。 


rename 一 一 重 命名 文件 


#include <stdio.h> 





int rename( 
const char *oldpath, /* old pathname */ 
const char *newpath /* new pathname */ 


sp 


ve 
/* Returns 0 on success or -1 on error (sets errno) 





rename 函 数 大概 按 如 下 顺序 工作 : 
1) 如 果 newpath 已 经 存在 ， 使 用 un1link 或 rmdir 删 除 它 。 
2) link (oldpath，newpath)， 即 使 oldpath 是 个 目录 。 
3) 使 用 unlink 或 cmdir 删 除 oldpath。 
rename 带 来 一 些 额 外 的 特性 和 规则 : 
*。 如 上 所 述 ， 步 骤 2 可 应 用 于 目录 ， 即 使 不 是 超级 用 户 运行 该 进程 。( 但 是 需要 对 newPath 
的 父 目录 具有 写 权 限 。) 
。 如 果 newpath 已 经 存在 ，newpath 和 oldpath 必 须 同 为 文件 或 者 同 为 目录 。 
。 如 果 newpath 已 经 存在 , 并 且 是 目录 的 话 , 其 必须 是 空 目 录 。(rmdir 具 有 同样 的 规则 . ) 
在 步骤 3 中 ，oldpath 如 果 是 目录 ， 即 使 不 空 ， 也 要 将 其 删除 。 因 为 它 的 内 容 已 经 在 
newpath 中 存在 。 
。 如 果 rename 某 步 失败 ， 文 件 或 目录 将 保持 不 变 。 
因此 ， 你 能 看 出 虽然 步骤 1、2、3 好 像 是 可 以 写成 库 函 数 ， 但 是 无 法 让 它 像 系统 调用 那样 
工作 。 
mv 命令 能 做 到 =ename 系 统 调用 做 不 到 的 一 些 事情 ， 如 在 文件 系统 之 间 移 动 文件 和 目录 ， 
将 文件 组 和 目录 组 移动 到 一 个 新 的 父 目录 下 。rename 仅 能 提供 mv 的 一 小 部 分 而 且 是 最 基本 
的 功能 。 
最 后 一 点 应 该 注意 的 是 : 如 果 oldpath 是 符号 链接 ，rename 操 作 的 是 符号 链接 ， 而 非 符 
号 链接 所 指向 的 对 象 。 因 此 ， 本 来 应 该 称 做 1rename 函 数 ， 但 是 那样 会 与 标准 C 函 数 混淆 。 
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3.3.3 创建 符号 链接 (symlink 系 统 调用 ) 


如 图 3-3 所 示 ， 如 果 想 创建 从 目录 /y 到 文件 /x (ad0s1g:107) 的 第 二 个 链接 ， 可 以 执行 如 下 
调用 : 

ec_negl( link(*"/x", "/y/c*) ) 

这 使 得 /x 和 /y/c 完 全 是 等 同 的 ，ad0s1g:107 不 能 同时 “存在 于 ”两 个 目录 记录 项 中 。 

现在 UNIX 文 件 安装 机 制 的 透明 性 破坏 了 : 因为 目录 记录 项 仅仅 有 标识 被 链接 到 对 象 的 索 
引 节 号 ， 而 非 设备 : 索引 节 号 的 组 合 ， 而 索引 节 号 通常 认为 是 唯一 的 ， 因 此 不 可 能 创建 一 个 
从 /y 到 /y/a/f(ad0s1m:107) 的 硬 链 接 。( 在 图 中 ， 要 使 两 个 完全 不 同 的 文件 的 索引 节 号 都 为 107 
就 会 引起 麻烦 。 ) 如 果 试 图 执行 : 

ec_negl( link("/Y/a/E"，"/Y/b") ) 

将 产生 一 个 EXDEV 错 误 。 

每 一 个 有 经 验 的 UNIX 用 户 都 知道 ， 解 决 的 方式 是 采用 符号 链接 。 在 硬 链接 中 ， 用 户 要 链 
接 的 索引 节 号 直接 存 于 目录 中 ， 和 硬 链 接 不 同 的 是 ， 符 号 链接 是 包含 用 户 想 链 到 的 对 象 的 路 
径 文本 的 小 文件 。 我 们 需要 的 链接 显示 在 图 3-3 的 椭圆 形 中 ， 符 号 链接 有 自己 的 信息 节点 
(ad0s1g:118)， 但 是 通常 任何 访问 /y/b 的 尝试 都 会 使 内 核 去 尝试 访问 /y/a/f， 而 /y/a/f 位 于 另 一 个 
文件 系统 上 。 

一 个 符号 链接 能 引用 另 一 个 符号 链接 。 例 如 ， 通 常 ， 当 一 个 符号 链接 传递 给 open 有 时 ， 内 
核 会 保持 重 引用 符号 链接 ， 直 到 发 现 它 不 是 符号 链接 。 硬 链接 不 会 出 现 这 种 情况 ， 因 为 硬 链 
接 直接 引用 信息 节点 ， 而 信息 节点 不 能 是 硬 链 接 。( 尽 管 它 可 以 是 一 个 包含 硬 链接 的 目录 , ) 
换 句 话说 ， 如 果 路 径 指向 的 是 硬 链 接 ， 那 么 随后 跟随 的 肯定 是 路 径 ， 但 如 果 指 向 的 是 符号 链 
接 ， 那 么 随后 的 实际 路 径 名 要 取决 于 符号 链接 所 引用 的 内 容 ， 直 到 达到 最 后 的 链 路 结尾 。 

可 以 用 带 有 -s 选 项 的 1n 命 令 创建 符号 链接 ， 但 是 实际 起 作用 的 是 sym1link 系 统 调用 : 


symlink 一 一 建立 符号 链接 


#include <unistd.h> 


int symlink( 
const char *oldpath, /* old pathname */ 
const char *newpath /* possible new pathname */ 


*/ 


ve 
/* Returns 0 on success or -1 on error (sets errno) 





大 多 数 情况 下 ，symlink 的 功能 与 1ink 类 似 。 在 这 两 种 系统 调用 中 ， 都 是 由 newPath 
给 定 所 创建 硬 链接 的 路 径 ， 但 是 用 sym1link， 硬 链接 指向 的 是 包含 由 newPath 给 出 的 字符 串 
的 一 个 符号 链接 文件 。 

在 对 照 表 的 解释 中 写 得 是 “可 能 的 "， 因 为 根本 没有 有 效 的 newpath 一 一 根本 不 能 保证 它 
是 一 个 有 效 的 路 径 ， 还 是 其 他 有 效 的 东西 。 甚 至 可 以 这 样 做 : 

ec_neg1( symlink(*lunch with Mike at 11:30*, "reminder") ) 
接着 用 1s 命 令 可 以 看 到 上 面 设置 的 reminder (根据 页 的 大 小 输出 ): 

$ ls -1 reminder 

lrwxrwxrwx 1 marc sysadmin 24 


Oct 16 12:04 reminder -> lunch with Mike at 11:30 


这 种 相当 松散 的 行为 是 有 目地 的 ， 它 引出 了 符号 链接 的 一 个 有 用 的 特征 : 引用 的 对 象 不 
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必 存 在 。 或 者 ， 如 果 存 在 ， 它 所 在 的 文件 系统 可 以 是 未 被 安装 的 。 

内 核对 符号 链接 目标 对 象 是 否 存在 不 感 兴趣 的 反面 是 : 当 目标 没有 被 链接 时 ， 对 符号 链接 什 
么 都 不 做 。 通 过 “ 解 链 "， 当 然 是 指 “ 解 除 硬 链接 ” ， 因 为 计数 到 零 的 硬 链 接 仍 是 内 核 决定 是 否 不 
再 需要 文件 (可 回收 信息 节点 和 数据 空间 ) 的 依据 。 因 为 一 部 分 符号 链接 可 以 在 未 安装 的 文件 系 
统 上 ， 所 以 不 可 能 去 调整 符号 链接 。 对 硬 链 接 也 是 不 可 能 的 ， 因 为 它们 在 文件 系统 的 内 部 。 

那么 如 何 去 掉 符号 链接 呢 ? 用 unlink (参考 图 3-3): 

ec_negl( unlink("/y/b") ) 

这 只 能 解 链 符号 链接 /y/b ， 而 对 其 所 指 的 文件 /y/a/f 没 有 作用 。 可 以 把 unlink 当 作 移 去 直接 由 
参数 规定 的 硬 链接 的 系统 调用 。 

好 ， 那 么 如 何 解 链 通过 符号 链接 所 指 的 文件 呢 ? 可 以 使 用 另 一 个 路 径 ， 因 为 文件 必须 硬 
链接 到 革 个 目录 。 但 是 如 果 拥 有 的 仅 是 符号 链接 路 径 ， 就 可 以 利用 read1link 系 统 调 用 读 取 
它 的 内 容 。 

readlink 一 一 读 取 符 号 链接 


#include <unistd.h> 


ssize_t readlink( 
const char *path, /* pathname */ 
char *buf, /* returned text */ 
size_t bufsize /* buffer size */ 


) 
/* Returns byte count or -1 on error (sets errno) */ 





readlink 在 UNIX 系 统 调 用 中 很 少 使 用 ， 因 为 不 能 假定 返回 的 字 串 是 以 NUL 结 尾 的 。 必 
须 保 证 buf 指 向 的 空间 足够 容纳 符号 链接 的 内 容 加 上 一 个 NUL 字 节 ， 然 后 将 空间 大 小 减 1 作为 
第 三 个 参数 传递 。 返 回 值 可 能 需要 强加 上 一 个 NUL 字 节 ， 如 下 所 示 : 

char but (1024) : 

ec_negl( n = readlink(" /home /marc/mylink®, buf, sizeof(buf) - 1) ) 

buf(n} = '\0'; 
如 果 需 要 ， 也 可 以 如 下 移 去 /homeymarc/mylink 所 链接 的 内 容 和 符号 链接 本 身 : 


ec_negl( unlink(buf) ) 
ec_negl( unlink("/home/marc/mylink") ) 


当 需 要 处 理 的 是 符号 链接 本 身 而 不 是 它 所 引用 的 内 容 时 ，read1link 不 是 唯一 的 选择 。 
对 于 得 到 信息 节点 的 信息 来 说 ， 可 以 选择 另外 一 个 系统 调用 stat ( 见 3.5.1 节 )， 它 有 一 个 不 


跟随 称 作 1stat 的 符号 链接 的 变 体 。 
readlink 示 例 代码 的 一 个 问题 是 常量 1024， 该 常数 代表 了 一 个 足以 容纳 最 长 路 径 名 的 


大 小 。 我 们 的 程序 不 必 担 心路 径 名 较 长 的 问题 ， 因 为 我 们 对 它 十 分 小 心 。 当 路 径 名 称 较 长 时 
简单 地 截断 并 返回 路 径 名 ， 这 还 是 不 太 好 。 

但 如 果 目 录 中 的 文件 名 受 限制 ， 比 如 255 字 节 ， 而 对 贬 套 的 目录 深度 没有 限制 ， 那 么 要 多 
大 的 空间 才 够 用 呢 ? 当然 答案 不 是 1024， 因 为 该 数 只 够 处 理 4 层 嵌 套 ! 寻找 答案 很 麻烦 ， 因 此 


拿 出 一 节 进 行 介绍 。 请 继续 往 下 读 。 


3.4 路 径 名 
本 节 将 解释 如 何 确定 路 径 名 的 最 大 长 度 ， 以 及 如 何 检索 当前 目录 的 路 径 名 。 
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3.4.1 路 径 名 长 度 大 小 

如 果 对 路 径 名 的 长 度 有 一 个 固定 的 限制 ， 假 定 是 常量 _POSIX_MAX_PATH， 那 么 对 巾 套 
的 目录 的 深度 也 将 有 一 个 限制 。 如 果 数 很 大 ， 也 会 产生 问题 ， 因 为 对 UNIX 系 统 来 说 ， 通 过 一 
些 设施 ， 如 NEFS 文 件 系统 将 文件 系统 有 效 地 安装 到 其 他 计算 机 上 是 常 有 的 事 。 Bt, TR, 
制 必 须 在 运行 期 间 动态 确定 ， 并 且 必 须 能 随 文件 系统 而 变化 。 

这 正 是 pathconf 和 fpathconf 所 支持 的 ( 见 1.5.6 节 )。 在 遵循 POSIX1990 的 系统 上 
(基本 上 它们 都 遵循 )， 可 以 如 下 调用 它们 : 


static long get_max_pathname(const char *path) 


{ 
long max_path; 


errno = 0; 


max_path = pathconf (path, _PC_PATH_MAX) ; 
if (max_path == -1) ( 
if (errno == 0) 
max_path = 4096; /* guess */ 


else 
EC_FAIL 
} 


return max_path + 1; 


EC_CLEANUP_BGN 

return -1; 
EC_CLEANUP_END 
? 


这 里 将 pathconf 的 返回 值 加 1， 是 因为 我 所 看 过 的 文档 没有 明确 说 明 这 个 大 小 是 否 包含 NUL 
字 节 。 我 倾向 于 假设 它 没 有 ， 而 且 OS 的 实现 者 也 如 我 一 样 不 能 确定 。 

在 三 个 测试 系统 上 ， 对 本 地 已 安装 的 文件 系统 和 已 安装 NFS 的 文件 系统 调用 此 函数 ， 在 
FreeBSD 和 Solaris 上， 得 到 的 是 1024， 在 Linux 系 统 上 ， 得 到 的 是 4096。 但 是 这 些 与 这 些 系 统 
的 版 本 和 相应 的 配置 文件 有 关 。 在 你 的 代码 中 需要 使 用 pathconf 函 数 得 到 这 些 数字 ， 而 不 


能 依靠 我 的 数字 。 
从 技术 上 讲 ， 对 于 _PC_PATH_MAX，pathconf 从 它 的 参数 路 径 中 返回 的 是 最 长 的 相对 


于 路 径 名 的 大 小 ， 而 不 是 最 长 的 绝对 路 径 。 因 此 ， 为 了 完全 准确 ， 你 应 该 利用 你 感 兴趣 的 文 
件 系统 的 根 目录 来 调用 pathconf， 然 后 加 上 从 这 个 根 目录 到 那个 文件 系统 的 根 目录 的 路 径 
的 大 小 。 但 那 种 可 能 不 存在 ， 几 乎 每 个 人 都 仅 用 带 有 “/” 或 者 “.” 参 数 来 调用 它 。 

以 前 是 按照 POSIX 和 SUS 标 准 。 实 际 上 ， 即 使 系统 得 到 了 pathconf 和 fpathconf 返 回 
的 某 个 数 ， 系 统 也 不 能 将 这 个 数 当 作 创 建 目录 的 限制 ， 但 当 试图 把 一 个 过 长 的 路 径 名 传递 给 
以 路 径 为 参数 的 系统 调用 时 ， 系 统 就 会 用 这 个 数 来 强制 限制 ， 例 如 open (错误 是 
ENRMETOOLONG )。 在 大 部 分 系统 上 ， 如 果 给 了 足够 大 的 缓存 ，getcwd ( 见 下 一 节 ) 可 以 返 
回 比 pathconf 或 fpathconf 返 回 的 最 大 值 还 要 长 的 符号 串 。 


3.4.2 getcwd 系 统 调用 


有 一 个 能 直接 得 到 当前 目录 路 径 的 系统 调用 。 和 readlink ( 见 3.3.3 节 ) 一 样 ， 唯 一 束 
手 的 问题 是 需要 知道 给 定 的 缓存 的 大 小 。 
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getewd 一 一 得 到 当前 目录 路 径 名 


#include <unistd.h> 


char *getcwd( 
char *buf, /* returned pathname */ 
size_t bufsize /* size of buf */ 


) 
/* Returns pathname or NULL on error (sets errno) */ 





下 面 的 这 个 函数 可 以 使 调用 getcwad 更 加 简单 ， 因 为 它 自动 分 配 缓存 来 容纳 路 径 串 。 带 有 
true 参 数 的 调用 会 告诉 该 函数 释放 缓存 。 


static char *get_cwd(bool cleanup) 
{ 
static char *cwd = NULL; 
static long max_path; 


if (cleanup) { 


free (cwd); 
cwd = NULL; 
} 
else { 


if (cwd == NULL) { 
ec_neg1( max path = get_max_pathname(".") ) 
ec_null( cwd = malloc((size_t)max_path) ) 


} 
ec_null( getcwd(cwd, max_path) ) 
return cwd; 

} 

return NULL; 


EC_CLEANUP_BGN 
return NULL; 

EC_CLEANUP_END 

$ 


下 面 这 段 代 码 的 功能 与 标准 Pwd 命 令 一 样 : 
char *cwd; 

ec_null( cwd = get_cwd(false) ) 

printf ("%s\n", cwd); 


(void) get_cwd(true); 
在 Solaris 系 统 上 运行 时 ， 得 到 如 下 结果 : 
/home/marc/aup 
到 此 为 止 ， 用 讲 过 的 函数 已 经 可 以 自己 编写 getcwd， 本 书 将 在 3.6.4 节 给 出 它 的 实现 代码 。 
getwd 的 功能 与 getcwd 相 似 ， 但 它 已 经 过 时 了 ， 在 新 程序 中 很 少 使 用 。 
3.5 访问 和 显示 文件 元 数据 
本 节 将 解释 如 何 检索 文件 元 数据 (例如 所 有 者 或 者 修改 时 间 ) 以 及 如 何 显示 它 。 
3.5.1 stat、fstat 和 lstat 系 统 调 用 
一 个 信息 节点 包含 一 个 文件 元 数据 (metadata) 一 所 有 除了 文件 名 (实际 上 不 属于 该 文 
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件 ) 和 文件 数据 (信息 节点 所 指向 的 ) 以 外 的 信息 。 
从 磁盘 中 直接 读 取信 息 节 点 ， 如 3.2.2 节 所 介绍 的 那样 ， 实 在 是 太 笨拙 了 。 幸 运 的 是 ， 有 三 个 
实现 读 取信 息 节 点 数据 的 标准 系统 调用 一 stat、fstat 和 1stat 以 及 一 个 众所周知 的 命令 1s。 


stat 一 一 通过 路 径 得 到 文件 信息 


#include <sys/stat.h> 


int stat( 
const char *path, /* pathname */ 
struct stat *buf /* returned information */ 


Ve 
/* Returns 0 on success or -1 on error (sets errno) */ 


lstat 一 一 不 遵循 符号 链接 ， 通 过 路 径 得 到 文件 信息 


#include <sys/stat.h> 


int lstat( 
const char *path, /* pathname */ 
struct stat *buf /* returned information */ 


) 
/* Returns 0 on success or -1 on error (sets errno) */ 


fstat 一 一 通过 文件 描述 符 得 到 文件 信息 
#include <sys/stat.h> 


int fstat( 
int fa, /* file descriptor */ 
struct stat *buf /* returned information */ 
ti 
/* Returns 0 on success or -1 on error (sets errno) */ 





stat 获 取 路 径 作为 参数 , 并 通过 它 查找 信息 节点 ; fstat 获 取 打开 文件 描述 符 作为 参数 ， 
并 从 内 核 中 活动 的 信息 节点 表 中 查找 信息 节点 。1stat 与 stat 相 同 ， 除 了 路 径 指向 一 个 符号 
链接 时 ， 元 数据 是 针对 符号 链接 本 身 的 ， 而 非 符号 链接 所 链接 的 对 象 。。 对 三 者 而 言 ， 来 自 
信息 节点 的 相同 的 元 数据 被 重新 排列 ， 并 放置 到 提供 的 stat 结 构 中 。 

下 面 是 stat 的 结构 ， 但 要 注意 实现 对 添加 或 者 重新 安排 字段 没有 限制 ， 因 此 要 确保 包含 


本 地 系统 的 sys/stat.h 头 文件 。 
struct stat 一 一 stat，fstat 和 lstat 的 结构 


struct stat { 
dev_t st_dev; * device ID of file system */ 
ino_t st_ino; i-number */ 
mode_t st_mode; mode (see below) */ 
nlink_t st_nlink; * number of hard links */ 
i user ID */ 
* group ID */ 


dev_t st_rdev; * device ID (if special file) */ 
off_t st_size; * size in bytes */ 

time_t st_a last access */ 

time_t st_mtime; last data modification */ 
time_t st_ctime; * last i-node modification */ 
blksize_t st_blksize; optimal I/O size */ 

blkent_t st_blocks; allocated 512-byte blocks */ 





O 因为 没有 办 法 得 到 打开 符号 链接 的 文件 描述 符 ， 所 以 没有 fl1stat。 任 何 使 用 open 中 符号 链接 的 企图 都 会 
打开 被 链接 的 文件 ， 而 不 是 符号 链接 。 并 且 ， 如 果 有 那样 的 方式 ， 以 致 于 文件 描述 符 已 经 可 以 指定 正确 对 


象 时 ， 那 么 用 fstat 就 行 了 。 
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下 面 是 对 此 结构 的 解释 : 

“设备 ID (dev_t 类 型 ) 是 一 个 唯一 标识 已 安装 文件 系统 的 数字 ， 即 使 当 设备 以 NFS 文 
件 系统 安装 时 。 因 此 st_dev 和 st_ino 唯 一 标识 这 个 信息 节点 。 本 质 上 和 3.2.4 节 定义 
的 ad0s1g:221 符 号 相同 。 重 新 观察 图 3-3， 在 图 中 每 一 个 设备 名 下 给 定 了 一 个 十 六 进 制 
设备 ID。 

该 标准 没有 规定 如 何 分 解 一 个 设备 ID ， 但 本 质 上 ， 所 有 的 实现 都 将 其 当 作 主 设备 和 次 设 

备 号 的 组 合 看 待 ， 其 中 ， 主 设备 号 标识 驱动 器 ， 而 次 设备 号 标识 实际 设备 ， 因 为 同一 个 设备 
驱动 器 可 以 与 同类 型 的 所 有 设备 接口 。 一 般 情 况 下 ， 次 设备 号 是 最 右边 的 字 节 。 

。 字 段 st_dev 是 包含 信息 节点 的 设备 ; 字段 st_rdev 是 特殊 文件 表示 的 设备 ， 仅 用 于 特 
殊 文件 。 例 如 ， 特 殊 文件 /dev/ad0slm 在 根 文件 系统 上 ， 因 此 它 的 st_dev 是 根 文 件 系统 
所 在 的 设备 。 但 st_rdev 是 所 指 的 设备 ， 可 以 是 完全 不 同 的 磁盘 。 

* 根 据 信息 节点 类 型 和 实现 的 不 同 ， 字 段 st_size 具 有 不 同 的 解释 。 对 于 一 个 代表 磁盘 数 
据 的 信息 节点 ， 即 普通 文件 、 目 录 和 符号 链接 ， 它 是 数据 的 大 小 〈 对 符号 链接 是 路 径 )。 
对 于 共享 内 存 对 象 ， 它 是 内 存 大 小 。 对 于 管道 ， 它 是 管道 中 的 数据 量 ， 但 那 不 是 标准 的 。 

© 无论 何 时 读 何 种 类 型 文件 ， 系 统 都 将 更 新 访问 时 间 (st_atime)， 但 当 查找 出 现在 路 
径 中 的 目录 时 不 更 新 访问 时 间 。 

* 当 写 文件 及 从 目录 中 添加 或 移 去 硬 链接 时 ， 将 更 新 数据 修改 时 间 ( st_mtime)。 

。 当 向 文件 写 数据 ， 或 者 信息 节点 隐 含 修改 时 (例如 更 改 其 所 有 者 或 链接 数 )， 将 更 新 信 
息 节点 修改 时 间 (st_ctime)， 也 称 作 状 态 修改 时 间 ， 但 仅 因为 读 取 文件 引起 的 访问 
时 间 更 改 时 不 更 新 该 时 间 。 

"字段 st_blksize 位 于 stat 结 构 中 ， 那 么 实现 根据 文件 可 以 更 改 它 ， 如 果实 现 选择 这 
么 做 。 大 多 数 情况 下 ， 该 值 与 超级 块 中 的 值 相同 ( 见 3.2.3 节 )。 

。 如 果 由 于 超过 文件 尾部 查找 和 写 人 数据 时 文件 产生 了 空 穴 ， 那 么 st_blocks*512 的 值 
可 能 小 于 st_size。 

。 当 拥有 的 文件 描述 符 不 是 来 自打 开 的 路 径 (例如 非 命名 管道 或 者 套 接 字 ) 时 ，fstat 会 
特别 有 用 。 因 为 字段 st_mode、 st_ino, st_dev, st_uid, st_gid, st_atime、 
st_ctime 以 及 st_mtime 都 要 求 有 有 效 的 值 , 但 是 其 他 字段 是 否 有 有 效 值 依赖 于 实现 。 
通常 对 命名 管道 和 未 命名 管道 来 说 ，st_size 字 段 包 含 管道 中 未 读 取 字 节 的 数 。 

st_mode 字 段 由 指示 文件 类 型 (普通 文件 、 目 录 等 )、 访问 权限 和 其 他 几 个 特征 的 位 构成 。 

除了 假定 一 些 特 定位 ， 一 个 可 移植 的 应 用 程序 应 该 使 用 宏 。 首 先 介绍 文件 类 型 的 宏 。 


st_mode 一 一 文件 类 型 的 位 掩 码 和 值 


all type-of-file bits */ 
block special file */ 
character special file */ 
directory */ 


named or un-named pipe */© 
symbolic link */ 

* regular file */ 
socket */ 





宏 S_IFMT 定 义 文件 类 型 位 ， 其 他 的 宏 是 这 些 位 的 值 ， 而 不 是 位 掩 码 。 因 此 ， 比 如 说 对 于 
套 接 字 的 测试 代码 一 定 不 能 写成 : 


日 Xbb, S_IPIFO (虽然 是 正确 的 ) 是 拼写 错误 ;应 该 称 作 S_IFFIFO。 
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if ((buf.st_mode & S_IFSOCK) == $_IFSOCK) /* wrong */ 
而 是 要 写成 : 

if ((buf.st_mode & S_IFMT) == S_IFSOCK) 

或 者 ， 用 户 可 以 使 用 这 些 检测 宏 中 的 一 个 ， 当 结果 为 真 时 ， 每 个 都 返回 非 零 值 ， 当 结果 
为 假 时 ， 每 个 都 返回 0， 因 此 可 以 像 C 布 尔 表达 式 一 样 使 用 : 


st_mode 一 文件 类 型 测试 宏 


S_ISBLK (mode) is a block special file */ 
S_ISCHR (mode) is a character special file */ 
S_ISDIR (mode) is a directory */ 


S_ISFIFO (mode) is a named or un-named pipe */ 
‘S_ISLNK (mode) is a symbolic link */ 

‘S_ISREG (mode) is a regular file */ 

S_ISSOCK (mode) is a socket */ 





套 接 字 的 检测 代码 如 下 : 

if (S_ISSOCK(buf .st_mode)) 

模式 中 的 某 处 有 9 位 代表 访问 权限 ，2.3 节 已 经 介绍 了 这 些 位 的 宏 ， 因 为 open 和 其 他 一 些 
系统 调用 也 使 用 了 同样 的 宏 ， 这 些 宏 也 具有 S_Ipwww 的 形式 ， 其 中 p 是 访问 权限 (R、W 或 X)， 
www 是 所 有 者 (USR、GRP 或 者 OTH ) 。 

现在 可 以 把 这 些 位 用 作 掩 码 了 ， 下 面 是 检测 组 的 读 权限 和 写 权限 的 代码 : 

if ((buf.st_mode & (S_IRGRP | S_IWGRP)) == (S_IRGRP | S_IWGRP)) 

为 了 使 解释 更 加 清楚 (也 可 能 会 使 问题 更 精 糕 一 对 不 起 ! )， 可 以 用 如 下 代码 检测 组 的 读 
权限 或 写 权限 : 


if ((buf.st_mode & S_IRGRP) == S_IRGRP || 
(buf.st_mode & S_IWGRP) == S_IWGRP) 


如 果 需 要 的 话 ， 也 可 以 采用 如 下 方式 编写 读 和 写 的 情况 : 


if ((buf.st_mode & S_IRGRP) == S_IRGRP && 
(buf ,st_mode & S_IWGRP) == S_IWGRP) 


在 st_mode 字 段 中 也 有 一 些 其 他 位 ， 这 里 将 重复 讲述 访问 权限 位 ， 以 便 以 后 返回 本 页 时 
能 够 一 目 了 然 : 


st_mode 一 一 权限 和 其 他 位 掩 码 


S_Ixwww /* x = RIWIX, www = USRIGRPIOTH | ” 
WOTH 


/* examples: S_IRUSR, S_Ii 
$_ISUID /* set-user-ID on execution */ 
S_ISGID /* set-group-ID on execution */ 
S_ISVTX /* directory restricted-deletion */ 





在 1.1.5 节 ， 已 经 讲述 了 设置 用 户 ID 和 设置 组 ID。 如 果 设置 了 S_ISVTX 标 志 ， 那 么 意味 着 
只 有 超级 用 户 、 目 录 的 所 有 者 或 者 文件 的 所 有 者 才 可 以 从 目录 中 解 链 文件 。 如 果 没 有 设置 该 
标志 (一般 不 设置 )， 那 么 在 目录 中 拥有 写 权限 就 可 以 了 。® 


O 那 是 SUS 定 义 。 历 史上 ， 称 该 位 为 粘性 位 (sticky bit)， 它 应 用 在 可 执行 程序 文件 上 ， 以 便 在 交换 设备 上 保 
持 经 常 使 用 程序 的 指令 段 ( 例 如 ，shell)。 在 目前 的 、 面 向 页 的 UNIX 系 统 中 不 常 使 用 。( 字 母 “SVTX” 来 
自 “SaVe TeXt"， 正 因为 如 此 ， 这 些 指令 也 被 称 作 “text”。) 
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一 个 显示 如 何 使 用 模式 宏 的 好 方法 就 是 像 1s 命 令 那样 来 显示 这 些 模式 ， 即 使 用 带 有 10 个 
字母 的 序列 (例如: drwxrxrx)。 简 单 地 说 ，1s 的 使 用 规则 如 下 : 

“第 一 个 字母 标识 文件 的 类 型 。 

。 紧 接着 的 9 个 字母 分 为 3 组 ， 每 组 三 个 ， 标 识 所 有 者 、 组 和 其 他 用 户 ， 如 果 设 置 了 访问 权 
限 位， 通常 是 r、w 或 者 x， 如 果 没 有 设置 访问 权限 位 ， 则 是 破 折 号 。 

。 如 果 设 置 了 用 户 ID 和 组 ID, 同时 也 设置 了 执行 位 , 那么 所 有 者 和 组 执行 字母 是 s (小 写 )， 
如 果 设 置 了 设置 位 ， 但 没有 设置 执行 位 ， 则 所 有 者 和 组 执行 字母 是 S (大 写 )。 第 二 种 情 
况 的 组 合 是 可 能 的 ， 但 没有 意义 ， 除 非 结 合 设置 组 ID 并 不 设置 组 执行 位 ， 但 这 会 在 一 些 


系统 上 引发 强制 文件 锁 ，7.11.5 节 将 做 解释 。 
。 如 果 设 置 了 限制 删除 位 (I_svTX)， 并 且 也 设置 了 执行 (搜索 ) 位 ， 则 其 他 的 执行 字母 


是 t， 否 则 ， 当 设置 了 限制 删除 位 ， 而 没有 设置 执行 位 时 ， 则 其 他 字母 是 T。 
下 面 的 函数 将 帮助 弄 清楚 这 个 算法 : 


#define TYPE(b) ((statp->st_mode & (S_IFMT)) == (b)) 
#define MODE(b) ((statp->st_mode & (b)) == (b)) 


static void print_mode(const struct stat *statp) 
{ 
if (TYPE(S_IFBLK)) 
putchar ('b'); 
else if (TYPE(S_IFCHR)) 
putchar(‘c'); 
else if (TYPE(S_IFDIR)) 
putchar(‘d'); 
else if (TYPE(S_IFIFO)) /* sic */ 
putchar ('p'); 
else if (TYPE(S_IFREG)) 
putchar ('-'); 
else if (TYPE( 
putchar(‘1'); 
else if (TYPE(S_IFSOCK)) 
putchar(‘s'); 
else 
putchar ('?'); 
putchar (MODE{S_IRUSR) ? 'r' : ， 
putchar (MODE (S_IWUSR) ? 'w' : ' 
if (MODE(S_ISUID)) { 
if (MODE (S_IXUSR) ) 
putchar ('s'); 
else 
putchar ('S'); 









) 
else if (MODE(S_IXUSR)) 
putchar ('x'); 
else 
putchar('-'); 
putchar (MODE(S_IRGRP) ? 'r' : '~'); 
putchar (MODE (S_IWGRP) ? 'w' : '-'); 
if (MODE(S_ISGID)) { 
if (MODE(S_IXGRP) ) 
putchar ('s'); 
else 
putchar ('S'); 
} 
else if (MODE(S_IXGRP)) 
putchar ('x'); 


aH 101 





else 

putchar ('-'); 
putchar (MODE (S_IROTH) ? 'r' : '-'); 
putchar (MODE (S_IWOTH) ? 'w' : '-'); 
if (MODE(S_IFDIR) && MODE(S_ISVTX)) { 


if (MODE{S_IXOTH)) 
putchar ('t'); 
else 
putchar (*T'); 
) 
else if (MODE(S_IXOTH)) 
putchar ("x"); 
else 
putchar('-'); 
) 


此 函数 不 会 使 用 新 行 中 断 输出 ， 以 后 将 介绍 其 原因 ， 下 面 是 检测 代码 : 


struct stat statbuf; 


ec_negl( lstat("somefile", &statbuf) ) 
print_mode (&statbuf) ; 

putchar ('\n'); 

ec_negl( system("1s -1 somefile") ) 


这 是 上 列 检测 代码 的 输出 ， 希 望 这 些 能 使 大 家 相信 所 讲述 的 一 切 : 


prw--w--w- 
prw--w--w- 1 marc sysadmin 0 Oct 17 13:57 somefile 


注意 ， 这 里 调用 的 是 1stat ， 而 不 是 stat ， 因 为 如 果 参 数 是 符号 链接 ， 那 么 需要 的 是 符 
号 链接 本 身 的 信息 ， 而 不 是 链接 所 指 的 对 象 。 

下 面 是 输出 链接 数 的 函数 ， 这 是 比 输出 模式 更 加 简单 的 方法 。( 你 能 明白 我 们 朝向 哪里 
吗 ? ) 

static void print_numlinks(const struct stat *statp) 


{ 
printf("%51d", (long)statp->st_nlink); 


) 
为 什么 要 强制 转换 成 Long 型 ? 因为 除了 知道 nlink_t 是 整数 类 型 外 ， 实 际 上 不 知道 
nlink_t 的 类 型 ， 所 以 需要 把 它 强制 转换 成 一 个 具体 的 类 型 以 便 与 printf 中 的 格式 匹配 。 
同样 stat 结 构 中 其 他 类 型 也 采用 了 相同 的 方式 ， 稍 后 在 本 章 中 可 以 看 到 对 应 的 内 容 。 
下 一 步 ， 需 要 输出 属 主 和 组 名 ， 但 是 为 实现 这 个 功能 ， 需 要 另外 两 个 库 函数 。 


3.5.2 getpwuid、getgrgid 和 getiogin 系 统 调用 

得 到 所 有 者 ID 和 组 ID 很 容易 ， 因 为 stat 结 构 中 有 对 应 的 字段 st_uid 和 st_gid， 但 我 
们 想得到 是 它们 的 名 字 。getpwuid 和 getgrgid 函 数 可 以 完成 这 个 功能 ， 这 两 个 函数 并 不 
是 真正 的 系统 调用 ， 因 为 它们 需要 的 信息 在 口令 文件 和 组 文件 中 ， 任 何 一 个 进程 只 要 不 怕 麻 
烦 ， 本 身 都 可 以 读 取 这 些 信息 。 尽 管 它 的 问题 是 文件 布局 没有 标准 化 。 

下 面 是 Solaris 系 统 上 的 口令 文件 的 “marc” 记 录 项 ， 它 是 相当 典型 的 情况 : 


$ grep marc /etc/passwd 
marc:x:100:14: : /home/marc: /bin/sh 


(口令 并 不 在 口令 文件 中 ， 它 存在 于 一 个 只 有 超级 用 户 才 可 以 读 取 的 加 密 文件 中 。 ) 
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在 这 个 系统 中 ,“marc” 是 一 些 组 的 成 员 ， 但 是 组 14 是 它 的 登录 组 : 


$ grep 14 /etc/group 
sysadmin: :14: 


getpwuid 一 一 得 到 口令 文件 入口 


#include <pwd.h> 











struct passwd *getpwuid( 
uid_t uid /* user ID */ 





) 
/* Returns pointer to structure or NULL on error (sets errno) */ 


struct passwd 一 一 getpwuid 的 结构 


struct passwd { 
char *pw_name; login name */ 
uid_t pwluid; user ID */ 
gid_t pw_gid; group ID */ 
char *pw_dir; login directory */ 
char *pw_shell; login shell */ 


getgrgid 一 一 得 到 组 文件 人 口 


#include <grp.h> 





struct group *getgrgid( 
gid_t gid /* group ID */ 
ve 
/* Returns pointer to structure or NULL on error (sets errno) */ 


struct group 一 一 getgrgid 的 结构 


struct group { 
char *gr_name; /* group name */ 
gid_t gr_gid: /* group ID */ 
char **gr_mem; /* member-name array (NULL terminated */ 


Vi 





如 以 前 讲述 的 一 样 ， 这 里 所 讲 的 两 个 结构 都 是 标准 字段 。 实 现 上 可 能 具有 更 多 的 字段 ， 


因此 需要 按照 头 文件 定义 的 那样 使 用 结构 。 
现在 使 用 两 个 查找 函数 输出 登录 名 和 组 名 ， 在 不 知道 名 字 的 情况 下 ， 仅 输出 其 ID。 当 文 
件 系 统 通过 网 络 挂 载 时 ， 找 不 到 名 字 是 很 常见 的 情况 ， 因 为 一 个 系统 上 的 用 户 在 另 一 个 系统 


上 可 能 没有 登录 名 。 


static void print_owner(const struct stat *statp) 


{ 
struct passwd *pwd = getpwuid(statp->st_uid); 


if (pwd NULL) 

printf (* %-81d", (long)statp->st_uid); 
else 

print£(" %-8s", pwd->pw_name) ; 





} 
static void print_group(const struct stat *statp) 
{ 

struct group *grp = getgrgidlstatp->st_gid); 


if {grp == NULL) 
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printf£(* %-81ld", (long) statp->st_gid); 


else 
printf(* %-8s", grp->gr_name) ; 


) 
现在 已 经 明白 了 ， 下 面 是 得 到 已 登录 用 户 名 字 的 函数 : 


getlogin 一 一 得 到 登录 名 


#include <unistd.h> 


char *getlogin(void) ; 
/* Returns name or NULL on error (sets errno) */ 





3.5.3 显示 文件 元 数据 的 更 多 信息 

继续 讨论 stat 结 构 ， 下 面 是 输出 文件 大 小 的 函数 。 对 于 特殊 文件 的 情况 ， 因 为 文件 大 小 
没有 意义 ， 所 以 输出 的 是 主 设备 号 和 次 设备 号 。 根 据 3.5 节 的 内 容 可 知 ， 虽 然 设 备 ID 的 编码 没 
有 标准 化 ， 但 是 最 右边 的 8 位 通常 表示 的 是 次 设备 号 : 


static void print_size(const struct stat *statp) 


{ 
switch (statp->st_mode & S_IFMT) ( 
case S_IFCHR: 
case S_IFBLK: 
printf ("%4u,%4u", (unsigned) (statp->st_rdev >> 8), 
(unsigned) (statp->st_rdev & OxFF)); 
break; 
default: 
printf(*%9lu", (unsigned long)statp->st_size) ; 
} 
d 


接 下 来 是 输出 文件 的 数据 修改 日 期 和 时 间 ， 为 了 完成 这 项 艰巨 的 任务 ， 使 用 的 是 标准 C 函 
数 strftime。 函 数 time 和 difftime 也 包含 在 标准 C 中 (这 三 个 函数 的 介绍 见 1.7.1 节 )。 通 
常 不 输出 年 ， 除 非 时 间 已 过 6 个 月 ， 目 的 是 为 了 节省 空间 : 9 


static void print_date(const struct stat *statp) 
í 

time_t now; 

double diff; 

char buf(100], *fmt; 


if (time(&now) == -1) { 
printf (* ?77?222???22"); 
return; 


} 
diff = difftime(now, statp->st_mtime); 
if (diff < 0 || diff > 60 * 60 * 24 * 182.5) /* roughly 6 months */ 


fmt = "tb te $Y"; 
else 
fmt = "tb te tH: 8M"; 
strftime(buf, sizeof(buf), fmt, localtime(&statp->st_mtime)); 


printf(" %s*, buf); 


O 一 般 情况 下 ， 我 们 的 策略 是 检测 所 有 错误 ， 除 了 定义 格式 (为 了 输出 ) 和 输出 时 。difftime 也 不 例外 ， 
它 是 没有 错误 返回 的 函数 之 一 。 
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最 后 一 件 事 是 输出 文件 名 ， 当 然 文 件 名 并 不 在 stat 结 构 中 ， 因 为 它 不 在 信息 节点 中 。 然 而 这 
个 问题 有 点 琼 手 ， 因 为 如 果 名 字 是 个 符号 链接 ， 那 么 需要 同时 输出 符号 链接 及 其 所 包含 的 内 容 : 


static void print_name(const struct stat *statp, const char *name) 


{ 
if (S_ISLNK(statp->st_mode)) { 
char ‘contents = malloc(statp->st_size + 1); 
ssize_t n; 


if (contents != NULL && (n = readlink(name, contents, 


statp->st_size)) != -1) { 
contents[n] = ; /* can't assume NUL-terminated */ 


printf£(" ts -> ès", name, contents); 





} 
else 
printf(" %s -> [can't read link]", name); 

freelcontents); 

} 

else 
printf(" $s", name); 

} 


在 3.3.3 节 ， 介 绍 readlink 时 曾 指 出 ， 为 了 规定 缓存 的 大 小 ， 需 要 知道 最 长 文件 名 的 字 
节 数 。 这 个 函数 提供 了 更 加 明了 的 方式 ， 因 为 路 径 的 准确 大 小 (不 包括 NUL 字 节 ) 在 符号 链 
接 的 st_size 字 段 中 。9 注 意 当时 分 配 的 缓存 是 st_size + ! 个 字 节 ， 但 是 把 st_size 的 值 
传 给 了 read1link 函 数 ， 以 便 保证 有 NUL 字 节 的 空间 ， 以 防 readlink 没 有 多 提供 这 个 字 节 ， 


因为 readlink 没 有 要 求 这 么 做 。 
现在 ， 正 如 所 等 待 的 ， 下 面 的 程序 将 所 有 的 输出 函数 都 集中 在 了 一 起 : 


int main(int argc, char *argv[]) 
{ 

int i; 

struct stat statbuf; 


for (i = 1; i < argc; i++) { 
ec_negl( Istat(argv(i], &statbuf) ) 
1s_long(&statbuf, argv[i]); 





} 
exit (EXIT_SUCCESS) ; 


EC_CLEANUP_BGN 
exit (EXIT_FAILURE) ; 

EC_CLEANUP_END 

) 

static void ls_long(const struct stat *statp, const char *name) 

{ 
print_mode(statp) ; 
print_numlinks(statp) ; 
print_owner(statp) ; 
print_group(statp) ; 
print_size(statp); 
print_date(statp) ; 
print_name(statp, name); 
putchar ('\n'); 





日 现代 的 文件 系统 在 信息 节点 的 右边 保存 的 是 短 符号 链接 ， 而 不 是 数据 块 ， 但 仍 用 st_size 字 段 给 定 大 小 。 


高 级 文件 1O 
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下 面 是 简化 的 1s 命 令 的 结果 : 

$ aupls /dev/tty 

Crw-rw-rw- 1 root root 5, 0 Mar 23 2002 /dev/tty 

$ aupls a.tmp a.out util 

lrwxewxrwx 1 marc sysadmin 5 Jul 29 13:30 a.tmp -> b.tmp 
-rwxr-xr-x 1 marc sysadmin 8392 Aug 1 2001 a.out 
drwxr-xr-x 3 marc sysadmin 512 Aug 28 12:26 util 


从 最 后 一 行 可 以 看 出 ， 该 函数 不 知道 如 何 列 出 目录 一 一 它 只 列 出 了 由 参数 给 出 的 名 字 。 为 


了 添加 这 个 特性 ， 需 要 明白 如 何 从 链接 中 读 取 目 录 ， 下 一 节 将 马上 讨论 这 个 问题 。 


3.6 目录 


本 节 介绍 如 何 读 取 目录 、 删 除 目录 、 更 改 当前 目录 和 遍历 目录 树 。 


3.6.1 RAR 


下 面 ， 除 了 在 信息 节点 有 特殊 的 设置 ， 以 及 内 核 不 允许 写 目录 之 外 ，UNIX 系 统 几 乎 总 是 
以 普通 文件 方式 来 操作 目录 。 在 一 些 系统 上 ， 人 允许 用 户 通过 read 读 目录 ， 但 是 POSIX 和 SUS 标 
准 不 要 求 这 样 ， 并 且 也 没有 规定 目录 信息 的 内 部 格式 。 但 是 探究 一 下 也 有 意义 ， 因 此 写 了 一 段 
小 程序 读 取 当 前 目录 的 头 96 字 节 ， 并 以 字符 形式 (如 果 内 容 可 输出 ) 和 十 六 进 制 形式 输出 : 


static void dir_read_test (void) 
{ 
int fd; 
unsigned char buf (96); 
ssize_t nread; 


ec_negl( fd = open(*.*, O_RDONLY) ) 

ec_negl( nread = read(fd, buf, sizeof(buf)) ) 
dump (buf, nread) ; 

return; 


EC_CLEANUP_BGN 
EC_FLUSH("dir_read_test*); 

EC_CLEANUP_END 

J 


static void dump(const unsigned char *buf, ssize_t n) 
t 
int i, j; 


for (i = 0; i <n; i += 16) { 
printf("t4d *, i); 
for (j = i; j <n && j <i + 16; j++) 


printf(* %c*, isprint((int)buf[j]) ? buf{j] : ' '); 


print£(*\n d; 
for (j = i; j <n && j < i + 16; j++) 
printf(* $.2x", buf{j]); 
printf("\n\n"); 
) 
printf (*\n"); 
} 


下 面 是 在 Linux 系 统 上 的 输出 结果 ( 减 去 了 “ec” 宏 跟踪 的 内 容 ): 


*** EISDIR (21: "Is a directory") *** 
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虽然 结果 不 那么 理想 ， 但 是 在 FreeBSD (和 Solaris 系 统 ) 上 有 好 的 结果 : 


0 v 
60 d8 05 00 Oc 00 04 01 2e 00 00 00 56 a8 05 00 


16 g b 
Oc 00 04 02 2e 2e 00 00 62 d8 05 00 0c 00 08 02 
32 m2 Y k é 
6d 32 00 cO 79 d8 05 00 Oc 00 08 01 6b 00 43 c6 
48 p c sy nc -ss 
b3 da 05 00 18 00 08 0c 70 63 73 79 6e 63 SE 73 
64 i z0 
69 67 2e 6£ 00 00 00 00 e3 e3 05 00 10 00 08 06 
go time. o r 


74 69 6d 65 2e 6f 00 c6 72 dB 05 00 Oc 00 08 02 


第 一 眼看 起 来 比较 乱 ， 但 仔细 查看 ， 可 以 看 到 一 些 有 意义 的 内 容 。 可 以 看 到 6 个 名 
字 : .、..、m2、k、pcsync_sig.o 以 及 time.o。 同 时 相关 的 索引 节 号 也 一 定 在 里 面 ， 为 
了 用 十 六 进 制 显示 它们 ， ERTE CERO se eRe (“桌面 计算 器 ”") 将 十 进 制 转换 成 
了 十 六 进 制 (后面 的 斜体 为 解释 内 容 ): 9 


$ 1s -ldif . .. m2 k 

383072 drwxr-xr-x 2 marc marc 2560 Oct 18 11:02 . 
383062 drwxr-xr-x 9 marc marc 
383074 -rwxrwxrwx 1 marc marc 
383097 -rwxr--r-- 1 marc marc 138 Sep 19 13:28 k 


$$$ dc 





160 make 16 the output radix 

383072p push the i-number onto the stack and print it 
50860 dc printed i-number in hex (radix 16) 

383062p m ditto m 

5D856 

a quit 


果真 ，5D860 和 5D856 显 示 在 了 结果 的 第 二 行 (第 一 个 十 六 进 制 行 ) 上 。 同 样 在 每 一 个 记录 项 
都 有 一 些 数字 ， 类 似 字符 串 大 小 的 东西 ， 但 是 实际 上 不 必 进一步 挖 气 里 面 的 含义 。 读 取 目 录 
的 一 个 比较 好 的 标准 方式 是 使 用 专 为 此 目的 设计 的 系统 调用 : 


opendir 一 一 打开 目录 
#include <dirent .h> 


DIR *opendir( 
const char *path /* directory pathname */ 


Me 
/* Returns DIR pointer or NULL on error (sets errno) */ 


closedir 一 一 关闭 目录 
#include <dirent.h> 


int closedir( 
DIR *dirp /* DIR pointer from opendir */ 


ve 
/* Returns 0 on success or -1 on error (sets errno) */ 





O 带 有 -1dit 选 项 的 1s 的 功能 是 显示 长 列表 但 不 遍历 目录 ， 显 示 信 息 节点 数 但 不 进行 排序 . 
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readdir 一 一 读 目录 
#include <dirent.h> 


struct dirent *readdir( 
DIR *dirp /* DIR pointer from opendir */ 


); 
/* Returns structure or NULL on EOF or error (sets errno) */ 


struct dirent 一 一 readdir 的 结构 
struct dirent ( 
ino_t d_ino; 1. 
char d_name{]; ” 
de 


rewinddir 一 一 返 绕 目 录 
#include <dirent.h> 
void rewinddir ( 


DIR *dirp DIR pointer from opendir */ 
) 7 


seekdir 一 一 搜索 目录 
#include <dirent .h> 
void seekdir( 
DIR *dirp, * DIR pointer from opendir */ 
long loc location */ 
ve 


telldir 一 一 得 到 目录 位 置 


#include <dirent.h> 


long telldir( 
DIR *dirp /* DIR pointer from opendir */ 


ve 
/* Returns location (no error return) */ 





这 些 函 数 的 功能 和 希望 的 一 样 : 以 opendir 开 始 ， 它 给 出 了 一 个 指向 DIR 的 指针 (与 调 
用 标准 C 中 的 fopen 得 到 一 个 指向 FILE 的 指针 类 似 )。 然 后 该 指针 可 作为 其 他 5 个 函数 的 参数 。 
可 以 循环 调用 readdir， 直 到 返回 NULL 为 止 ， 这 意味 着 如 果 readdir 没 有 改变 errno， 则 
表示 已 经 到 达 了 文件 的 末尾 ， 如 果 readdir 改 变 了 errno， 则 表示 出 现 了 错误 。( 因此 为 了 
不 出 现 混 清 ， 在 调用 readdir 函 数 之 前 应 该 将 errno 设 置 为 0。) readdir 函 数 返 回 了 一 个 指 
向 dirent 结 构 的 指针 ， 该 结构 包含 了 索引 节 号 和 在 目录 记录 项 中 的 名 字 。 当 不 用 DIR 时 ， 可 
以 使 用 closedir 关 闭 它 。 

readdir 返 回 的 d_ino 字 段 中 的 索引 节 号 并 没有 特别 的 用 途 ， 因 为 如 果 目 录 记 录 项 是 挂 
载 点 ， 那 么 它 将 是 挂 载 前 的 索引 节 号 ， 而 不 是 反映 当前 目录 树 的 索引 节 号 。 例 如 ， 在 图 3-3 中 
( 见 3.3 节 )，readdir 给 出 的 目录 记录 项 /y/a 的 信息 节点 为 221， 但 是 因为 其 是 挂 载 点 ， 所 以 有 
效 的 信息 节点 是 ad0slm:2 (简单 一 个 ?并 不 能 说 明 问 题 ， 因 为 设备 ad0s1g 中 也 包含 一 个 2)。 信 
息 节点 221 其 至 是 不 可 访问 的 ， 因 此 ， 当 沿 着 目录 树 读 取 目 录 了 时， 必须 通过 stat 函 数 才能 得 
到 正确 的 目录 记录 项 的 索引 节 号 ， 不 能 从 d_ino 字 段 中 获取 索引 节 号 ， 在 3.6.4 节 中 将 讨论 如 


何 得 到 当前 目录 的 路 径 名 。 
当 需 要 返回 到 目录 的 起 始 位 置 时 ， 可 能 会 用 到 rewinddir， 使 用 这 个 函数 可 以 直接 再 次 
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读 一 个 目录 ， 无 需 关闭 后 再 打开 目录 。 很 少 会 用 到 seekdir 和 telldir。seekdir 的 参数 
loc 需 要 通过 te1l1dir 得 到 ， 但 不 能 假设 它 就 是 目录 记录 项 的 数目 ， 也 不 能 像 以 前 见 到 的 情 
况 那样 假设 目录 占用 固定 宽度 的 位 置 。 

readdir 属 于 这 样 一 类 函数 : 此 类 函数 使 用 返回 指针 所 指向 的 单个 静态 分 配 的 结构 。 虽 
然 这 种 方式 很 方便 ， 但 是 对 多 线程 程序 来 说 却 不 是 很 好 ， 因 此 改 用 readdir 的 无 结构 变种 ， 此 
变种 使 用 的 是 传人 的 内 存单 元 : 


readdir_r 一 一 读 目 录 
#include <dirent.h> 


int readdir_r( 
DIR *restrict dirp, /* DIR pointer from opendir */ 


struct dirent ‘entry, /* structure to hold entry */ 
struct dirent **result /* result (pointer or NULL) */ 


); 
/* Returns 0 on success or error number on error (errno not set) */ 





程序 必须 传递 一 个 指向 dirent 结 构 的 指针 给 readdir_r， 并 且 readdir_r 至 少 要 能 容 
纳 NAME_MAX+1 个 元 素 。 可 以 通过 调用 pathconf 和 fpathconf 得 到 NAME_MAX 的 值 ， 利 用 
目录 作为 参数 ， 与 3.4 节 得 到 最 大 路 径 长 度 的 值 的 做 法 一 样 。readdir_r 通 过 result 参 数 返 
BGR, 其 含义 与 readdir 的 返回 值 相 同 , 不 同 的 是 不 能 检测 errno 一 一 因为 错误 号 (或 者 0) 
是 函数 的 返回 值 。 但 可 以 使 用 ec_rv 宏 ( 见 1.4.2 节 ) 来 检测 errno， 如 下 面 例 子 所 示 ， 该 例 
子 列 出 了 当前 目录 中 的 名 称 和 索引 节 号 。 


static void readdir_r_test (void) 
{ 
bool ok = false; 
long name_max; 
DIR *dir = NULL; 
struct dirent *entry = NULL, ‘result; 


errno = 0; 
/* failure with errno == 0 means value not found */ 
ec_negl( name_max = pathconf(*.*, _PC_NAME_MAX) ) 
ec_null( entry = malloc(offsetof(struct dirent, d_name) + 
name_max + 1) ) 

ec_null( dir = opendir(*.") ) 
while (true) { 

ec_rv( readdir_r(dir, entry, &result) ) 

if (result == NULL) 

break; 
printf ("name: ts; i-number: $ld\n*, result->d_name, 
(long) result->d_ino) ; 

} 
ok = true; 
EC_CLEANUP 


EC_CLEANUP_BGN 
if (dir != NULL) 
(void) closedir (dir); 
free(entry); 
if (tok) 
EC_FLUSH (*readdir_r_test*); 
EC_CLEANUP_END 
} 
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代码 的 解释 如 下 : 
+ 4errno = 0 时 ，pathconf 命 令 的 返回 值 为 -1 时 表示 对 目录 中 的 名 字 没 有 限制 ， 这 种 
| 情况 是 不 允许 的 。 但 我 们 希望 代码 能 处 理 这 种 情况 ， 因 此 采用 这 样 的 捷径 : 将 errno 设 
置 为 0， 并 将 所 有 返回 值 -1 当 作 错 误 处 理 。 本 条 解释 适用 于 所 有 实际 上 errno = 0 的 错 

误 消 息 。 这 种 思想 是 :在 不 将 问题 复杂 化 的 情况 下 ， 保 证 代码 能 处 理 不 可 能 的 情况 ， 因 
为 无 法 为 不 可 能 的 事件 建立 检测 代码 ， 所 以 无 论 如 何不 可 能 检测 它们 。 

。 使 用 ma1l1loc 分 配 空间 是 个 很 棘手 的 问题 。 关 于 dirent 结 构 ， 能 够 确信 的 是 字段 
d_ino 位 于 该 结构 的 某 个 地 方 ( 也 许 有 其 他 非 标 准 的 字段 )，d_name 是 最 后 一 个 字段 。 
因此 d_name 的 偏 移 量 加 上 需要 的 大 小 是 计算 总 大 小 的 唯一 的 安全 方式 ， 同 时 也 要 考虑 
到 结构 中 的 空隙 (标准 C 中 允许 ) 和 隐藏 字段 。 

。EC_CLEANUP 跳 转 到 了 清理 代码 ， 如 1.4.2 节 中 的 一 样 。 布 尔 值 ok 表示 是 否 有 错误 。 

这 些 问 题 真 让 人 头疼 ! 但 如 果 能 够 确定 不 是 多 个 线程 ， 而 仅 有 一 个 线程 读 取 某 个 目录 ， 

那么 使 用 readdir 就 相对 容易 一 些 : 


static void readdir_test (void) 
{ 

DIR *dir = NULL; 

struct dirent *entry; 


ec_null( dir = opendir(".") ) 
while (errno = 0, (entry = readdir(dir)) != NULL) 
printf ("name: $s; i-number: ¢1d\n", entry->d_name, 
(Long) entry->d_ino) ; 
ec_nzero( errno ) 
EC_CLEANUP 


EC_CLEANUP_BGN 
if (dir != NULL) 
(void) closedir (dir) ; 
EC_FLUSH (*readdir_test") ; 
EC_CLEANUP_END 
$ 


这 里 囊 手 的 问题 是 将 readdir 加 入 到 while 循 环 检测 中 : 逗号 表达 式 的 第 一 部 分 是 将 errno 
设置 为 0， 第 二 部 分 求 出 整个 表达 式 的 值 ， 这 是 while 循 环 检测 的 内 容 。 也 可 以 不 用 写 得 这 么 
紧 资 ， 但 不 能 写成 这 样 : 
while ty = readdir(dir)) != NULL) { /* wrong */ 
/* process entry */ 
è 
因为 在 目录 记录 项 的 处 理 过 程 中 ， 可 能 会 复位 errno。 每 次 调用 readdir 时 都 应 将 errno 设 


置 为 0。9 
总 之 ,下面 是 输出 结果 的 头 几 行 来自 例子 之 一 ): 
name: i-number: 383072 
name: ..; i-number: 383062 _ 
name: m2; i-number: 383074 
name: k; i-number: 383097 





O 也 许 你 正在 想 : UNIX 系 统 编程 的 主要 困难 就 是 处 理 errno。 非 常 正确 ! 但 是 别 忽 我 ， 我 只 是 一 个 带路 
者 ! 附录 B 给 出 了 更 加 简单 的 方式 。 
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既然 可 以 读 取 目 录 ， 就 可 以 把 readdir 循 环 与 1s_long 函 数 ( 在 3.5.3 节 的 末尾 出 现 过 ) 
放 在 一 起 ， 得 到 一 个 可 以 列 出 目录 的 ls 命令: 


int main(int argc, char *argv[}) /* has a bug */ 
{ 

bool ok = false; 

int i; 

DIR *dir = NULL; 

struct dirent *entry; 

struct stat statbuf; 


for (i = 1; i < argc; i++) { 
ec_negl( lstat(argv[i], &statbuf) ) 
if (1S_ISDIR(statbuf.st_mode)) { 
1s_long(&statbuf, argv[il); 
ok = true; 
EC_CLEANUP 
} 
ec_null( dir = opendir(argv[i]) ) 
while (errno = 0, ((entry = readdir(dir)) != NULL)) ( 
ec_negl( lstat(entry->d_name, &statbuf) ) 
1s_long(&statbuf, entry->d_name) ; 
} 
ec_nzero( errno ) 
} 
ok = true; 
EC_CLEANUP 


EC_CLEANUP_BGN 
if (dir != NULL) 
(void) closedir (dir); 
exit (ok ? EXIT_SUCCESS : EXIT_FAILURE) ; 
EC_CLEANUP_END 
) 


当 用 这 个 程序 列 出 当前 目录 时 ， 该 程序 运行 良好 ， 和 结果 显示 的 一 样 〈 仅 显示 了 结果 的 
头 几 行 ): 





$ aupls 

drwxr-xr-x 2 marc marc 2560 Oct 18 12:20 . 
drwxr-xr-x 9 marc marc 512 Oct 14 18:05 .. 
-rwxrwxrwx 1 marc marc 55 Jul 25 11:14 m2 
-rwxr--r-- 1 marc marc 138 Sep 19 13:28 k 


但 当 试图 在 /tmp 目 录 上 运行 时 ， 得 到 的 结果 却 是 这 样 的 : 


$ aupls /tmp 
drwxr-xr-x 2 marc marc 2560 Oct 18 12:20 . 
drwxr-xr-x 9 marc marc 512 Oct 14 18:05 .. 


ERROR: 0: main [/aup/c3/aupls.c:422] lstat(entry->d_name, &statbuf) 
*** ENOENT (2: "No such file or directory") *** 


症状 是 readdir 循 环 调用 1stat 时 找 不 到 名 字 ， 即 使 从 目录 读 取 也 不 行 。 原 因 是 试图 带 有 路 
径 “auplog.tmp” 调 用 1stat 时 ， 如 果 /tmp 在 当前 目录 中 ， 那 么 程序 会 运行 良好 ， 但 问题 是 它 
不 在 。9 当 首先 调用 cd 命令 时 ， 共 工作 的 情况 如 下 ( 仅 显示 头 几 行 ): 


$ cd /tmp 


日 ” 仅 列 出 了 前 两 个 记录 项 ， 因 为 .和 .. 存 在 于 每 一 个 目录 中 。 然 而 输出 的 结果 仍然 是 不 正确 的 。 
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$ /usr/home/marc/aup/aupls . 


3 root wheel 1536 Oct 18 12:20 . 
18 root wheel 512 Jul 25 08:01 .. 
1 marc wheel 189741 Aug 30 11:22 auplog.tmp 





1 marc wheel 0 Aug 5 13:23 ed.7GHAhk 


补救 的 方法 是 在 调用 readir 循 环 前 使 用 chdir 系 统 调用 ， 下 节 将 对 此 系统 调用 作 以 介绍 。 


3.6.2 chdir 和 fchdir 系 统 调用 
大 家 都 知道 shell 程 序 中 的 cd 命令 的 功能 ， 下 面 是 晚 于 它 开发 的 系统 调用 : 


chdir 一 一 根据 路 径 改 变 当前 目录 
#include <unistd.h> 


int chdir( 
const char *path /* pathname */ 


) 
/* Returns 0 on success or -1 on error (sets errno) */ 


fchdir 一 一 根据 文件 描述 符 改变 当前 目录 


#include <unistd.h> 


int fchdir( 
int fd /* file descriptor */ 


) 
/* Returns 0 on success or -l on error (sets errno) */ 





和 大 家 希望 的 一 样 ，chdir 的 参数 可 以 是 绝对 路 径 ， 也 可 以 是 相对 路 径 ， 并 且 无 论 它 指 
向 的 信息 节点 是 什么 ， 如 果 是 一 个 目录 ， 那 么 它 就 能 使 这 个 目录 变 成 新 的 当前 目录 。 

fchdir 把 向 目录 打开 的 文件 描述 符 当 作 和 参数 ， 但 等 一 下 ! 3.6.1 节 中 不 是 讲 过 打开 目录 是 
非 标准 的 吗 ? 我 没有 说 过 ; 我 说 过 读 取 目录 是 非 标 准 的 。 打开 目录 时 确实 有 一 个 标准 ， 那 就 
是 用 fchdir 得 到 可 用 的 文件 描述 符 ， 尽 管 必须 带 有 0_RDONLY 标 志 打开 目录 ， 但 不 允许 为 写 
操作 打开 。 

既然 不 能 方便 地 读 取 目 录 ， 为 什么 还 需要 fchdir 一 一 为 什么 不 一 直 使 用 带路 径 名 的 
chdir 呢 ? 因为 fchdir 和 open 是 配对 使 用 的 ， 所 以 能 够 很 好 地 标识 所 处 的 位 置 ， 并 将 其 返 


回 。 比 较 这 两 种 技术 : 
1) 得 到 当前 目录 的 路 径 名 1) 打开 当前 目录 
2) 改变 当前 目录 2) 改变 当前 目录 
3) chdir 使 用 第 一 步 得 到 的 路 径 名 3) fchdir 使 用 第 一 步 得 到 的 文件 描述 符 


左边 的 技术 较 差 ， 原 因 是 : 

“* 不 太 容 易 得 到 当前 目录 的 路 径 名 ， 见 3.4.2 节 。 

。 该 过 程 很 耗 时 ， 在 后 面 的 3.6.4 节 中 ， 当 我 们 亲自 做 这 项 工作 时 就 能 明白 这 个 问题 了 。 

在 某 些 情况 下 ， 如 果 仅 运行 到 下 一 层 目录 ， 那 么 可 以 通过 下 面 的 代码 返回 到 上 一 级 目录 ;: 

ec_negl( chdir("..") ) 
此 时 并 不 需要 有 路 径 名 ， 但 是 最 好 还 是 使 用 open/fchdir 函 数 对 ， 因 为 该 函数 对 不 需要 知 
道 程序 是 如 何 遍历 目录 的 。 然 而 当 用 户 对 目录 没有 读 权限 时 ， 是 不 能 使 用 该 函数 对 的 。 

现在 修正 上 一 节 的 auPls 的 版 本 ， 读 取 之 前 将 其 转 到 一 个 目录 。 我 们 确实 需要 返回 到 原 
来 的 地 方 ， 因 为 有 多 个 参数 要 处 理 ， 并 且 每 个 都 假设 未 改变 当前 目录 。 下 面 是 修改 后 的 中 间 
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部 分 : 


ec_null( dir = opendir(argv[i]) ) 

ec_negl( fd = open(*.*, O_RDONLY) ) 

ec_negl( chdir(argv[i}) ) 

while (errno = 0, ((entry = readdir(dir)) != NULL)) { 
ec_negi( 1stat(entry->d_name, &statbuf) ) 
1s_long(&statbuf, entry->d_name) ; 


} 
ec_nzero( errno ) 
ec_negl( fchdir(fd) ) 


但 仍然 有 一 个 问题 。 如 果 你 想 试 着 自己 找到 这 个 问题 ， 那 么 请 不 要 往 下 读 了 。 

问题 是 如 果 在 chdir 和 fchdir 调 用 之 间 出 现 错误 跳 转 到 清理 代码 ， 那 么 将 不 执行 对 
fchdir 的 调用 ， 并 且 不 能 恢复 当前 目录 。 在 这 个 程序 中 出 现 这 种 错误 并 不 碍 事 ， 因 为 这 些 错 
误 将 终止 进程 ， 并 且 对 每 一 个 进程 来 说 ， 当 前 目录 都 是 唯一 的 (不 影响 shell 的 当前 目录 )。 但 
是 ， 如 果 错 误 处 理 在 某 点 被 改变 ， 或 者 如 果 把 这 段 代码 复制 并 粘贴 到 另 一 个 程序 中 ， 那 么 情 
况 就 会 变 得 很 精 糕 。 

好 的 修复 方法 (这 里 没有 列 出 代码 ) 是 在 清理 代码 中 第 二 次 调用 fchdir， 从 而 无 论 出 现任 
何 情况 ， 它 都 会 执行 。 可 以 将 fd 初始 化 为 -1， 并 检测 该 值 ， 除 非 它 是 一 个 有 效 值 时 才 使 用 它 。 


3.6.3 mkdir 和 rmdir 系 统 调用 
创建 目录 和 删除 目录 的 两 个 系统 调用 分 别 是 : 


mkdir 一 一 建立 目录 

#include <sys/stat.h> 

int mkdix( 
const char ‘path, /* pathname */ 
mode_t perms /* permissions */ 


ve 
/* Returns 0 on success or -1 on error (sets errno) */ 


rmdir 一 一 删除 目录 
#include <unistd.h> 


int rmdir ( 
const char *path /* pathname */ 


ve 
/* Returns 0 on success or -1 on error (sets errno) */ 





对 mkdir 来 说 ， 访 问 权 限 、 如 何 与 文件 创建 屏蔽 字 交 互 以 及 新 目录 的 所 有 权 和 open 的 对 
应 项 都 是 相同 的 ( 见 2.4 节 )， 并 能 自动 创建 特殊 的 .和 .. 链 接 。 

rmdir 的 功能 和 unlink 类 似 ,但 un1link 不 能 对 目录 进行 操作 。9 一 个 很 大 的 限制 是 要 
删除 的 目录 必须 是 空 的 〈 除 .和 .. 之 外 )。 如 果 目 录 非 空 ， 那 么 必须 首先 从 分 支 树 的 底部 开始 删 
除 链接 ， 也 许 需要 多 次 调用 un1ink 和 rmdir。 如 果 这 就 是 想 做 的 工作 ， 那 么 这 样 写 更 容易 
实现 : 


ec_negl( system("rm -rf somedir") ) 


因为 rm 知道 如 何 遍历 目录 树 。 


O 在 一 些 系统 上 ， 虽 然 超级 用 户 可 以 在 目录 上 使 用 它 ， 但 是 那 是 非 标准 的 - 
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下 面 是 上 面 所 讨论 的 一 个 示例 : 

void rmdir_test (void) 

{ 
ec_neg1( mkdir("somedir", PERM_DIRECTORY) ) 
ec_neg1( rmdir("somedir") ) 
ec_neg1( mkdir(*somedir", PERM_DIRECTORY) ) 
ec_negl( close(open("somedir/x"，O_WRONLY | O_CREAT, PERM_FILE)) ) 
ec_negl( system("1s -ld somedir; ls -1 somedir") ) 
if (xmdir("somedir’) == -1) 

perror ("Expected error"); 

ec_negl( system(*rm -rf somedir") ) 
ec_negl( system("ls -ld somedir") ) 
return; 


EC_CLEANUP_BGN 
EC_FLUSH (*rmdir_test"); 

EC_CLEANUP_END 

a 
在 1.1.5 节 中 已 经 介绍 了 PERM_DIRECTORY 和 PERM_FILE。 创 建文 件 的 代码 行 有 点 古怪 ,但 
是 当 仅 为 了 创建 文件 时 ， 却 很 方便 。 唯一 的 缺点 是 ， 如 果 open 失 败 ， 那 么 所 报告 的 errno 值 
将 传 给 close (得 到 的 参数 是 -1)， 而 代码 编写 者 就 只 能 猜测 为 什么 不 能 创建 文件 了 。 

执行 此 函数 的 结果 如 下 : 


drwx------ 2 marc users 72 Oct 18 15:32 somedir 
total 0 
-zw-r--r-- 1 marc users 0 Oct 18 15:32 x 


Expected error: Directory not empty 
1s: somedir: No such file or directory 


3.6.4 实现 getcwd (向 上 遍历 目录 树 ) 

说 实话 当 想 起 3.4.2 节 的 getcwd 时 就 没有 兴趣 了 ， 因 为 它 面临 着 定义 缓存 大 小 的 麻烦 。 现 
在 的 目的 是 实现 它 ! 

基本 思想 是 从 当前 目录 开始 ， 得 到 其 索引 节 号 ， 接 着 到 其 父 节 点 查找 这 个 信息 节点 的 记 
录 项 ， 从 中 得 到 子 节点 的 名 字 。 重 复 这 个 过 程 ， 直 到 不 能 上 滴 为 止 。 

“不 能 上 调 ” 的 含义 是 什么 ? 它 的 含义 是 或 者 : 

chdir("..") 
BE- IF AENOENTHIR, RARR, HAHERMRM ARS 〈 即 在 原 目录 中 ， 没 有 
动 )， 这 两 种 行为 都 有 可 能 发 生 ， 两 个 的 含义 都 表示 在 根 目录 。 

当 沿 树 向 上 走时 ， 我 们 会 把 找到 的 路 径 成 分 累积 添加 到 链表 中 ， 这 样 得 到 的 链表 的 顶部 
是 最 新 的 ( 即 最 高 层 ) 记录 项 。 因 此 如 果 当 前 目录 的 名 字 是 grandchild， 那 么 接 下 来 找到 
的 父 节点 会 是 child， 再 然后 找到 的 child 的 父 节点 会 是 parent ， 此 时 就 找到 根 目录 了 ， 
从 而 结束 链接 。 如 图 3-4 所 示 。 

head 


上 “HH CT 


图 3-4 路 径 名 链接 表 
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下 面 是 每 个 链接 表 节点 的 结构 和 函数 ， 该 函数 实现 了 创建 新 节点 和 将 其 放 到 链表 头 的 功能 : 


struct pathlist_node { 

struct pathlist_node *c_next; 

char c_name[{1]; /* flexible array */ 
ve 


static bool push_pathlist (struct pathlist_node **head, const char *name) 


{ 
struct pathlist_node *p; 


ec_null( p = malloc(sizeof(struct pathlist_node) + strlen(name)) ) 
strepy(p->c_name, name); 

p->c_next = *head; 

*head = p; 

return true; 


EC_CLEANUP_BGN 
return false; 

EC_CLEANUP_END 

让 


每 个 pathlist_node 的 大 小 都 是 可 变 的 ; 结构 中 有 足够 的 空间 用 以 容纳 终止 字符 串 的 
NUL 字 节 ， 但 当 分 配 节点 时 ， 必 须 为 该 名 字 增加 此 空间 ， 可 以 参照 malloc 的 参数 。 注 意 到 
在 每 个 链接 表 的 头 端 都 放置 了 一 个 节点 ， 这 样 遇 到 这 个 节点 后 ， 就 可 以 以 相反 顺序 查找 链接 
表 。 这 个 顺序 恰好 是 累积 成 路 径 名 的 顺序 ， 如 get_path1list 函 数 所 示 : 


static char *get_pathlist(struct pathlist_node *head) 
{ 

struct pathlist_node *p; 

char ‘path; 

size_t total = 0; 


for (p = head; p != NULL; p = p->c_next) 
total += strlen(p->c_name) + 1; 

ec_null( path = malloc(total + 1) ) 

path(0} = '\0'; 

for (p = head; p != NULL; p = p->c_next) { 
strcat (path, "/"); 
strcat (path, p->c_name) ; 

} 

return path; 


EC_CLEANUP_BGN 
return NULL; 

EC_CLEANUP_END 

} 


该 函数 饥 历 了 两 次 链表 ， 第 一 次 只 计算 了 所 需 路 径 的 总 空间 (循环 中 “+1” 是 为 了 “/”), 第 
二 次 才 建 立 路 径 字符 串 。 

最 后 路 径 处 理 函 数 释放 链接 表 空间 ， 大 概 会 在 get_pathlist 函 数 之 后 调用 : 

static void free_pathlist (struct pathlist_node **head) 

{ 


struct pathlist_node *p, *p_next; 


for (p = *head; p != NULL; p = p_next) { 
p_next = p->c_next; 
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free(p); 
} 
*head = NULL; 
} 


这 里 ,使 用 p_next 变 量 保存 了 指向 下 一 个 节点 的 指针 ， 因 为 p 本 身 一 经 释放 将 会 变 成 无 效 变 
量 。 下 面 是 创建 图 3-4 所 示 链接 表 的 代码 : 


struct pathlist_node *head = NULL; 
char *path; 


ec_false( push_pathlist(&head, “grandchild*) ) 
ec_false( push_pathlist(&head, “child") ) 
ec_false( push_pathlist(&head, “parent") ) 
ec_null( path = get_pathlist (head) ); 
free_pathlist (&head) ; 

print£("$s\n", path); 

free(path) ; 


以 下 是 输出 结果 : 
/parent/child/grandchild 
这 种 处 理 路 径 的 方式 最 方便 的 特性 是 不 需要 预先 为 路 径 分 配 空间 ， 就 像 调 用 标准 getcwd 


函数 一 样 ， 见 3.4.2 节 。 
现在 讨论 getcwdx， 我 们 自己 的 getcwd 版 本 。getcwdx 是 向 上 遍历 树 ， 在 每 一 层 中 ， 


一 旦 识别 出 一 个 记录 项 名 是 一 个 子 节点 的 对 应 项 ， 那 么 就 调用 push_path1list， 直 到 根 节 
点 。 首 先 通过 宏 检 测 两 个 stat 结 构 是 否 代表 同一 信息 节点 ， 方 法 是 通过 检测 设备 ID 和 索引 节 
号 来 实现 : 


#define SAME_INODE(s1，s2) ((s1).st_dev == (s2).st_dev &&\ 
(s1).st_ino == (s2).st_ino) 


下 面 将 在 getcwdx 函 数 中 两 次 调用 该 宏 : 


char *getcwdx (void) 
{ 
struct stat stat_child, stat_parent, stat_entry; 
DIR *sp = NULL; 
struct dirent *dp; 
struct pathlist_node *head = NULL; 
int dirfd = -1, rtn; 
char *path = NULL; 


ec_negl( dirfd = open(*.", O_RDONLY) ) 
ec_negl( lstat(".", &stat_child) ) 
while (true) { 

ec_negl( lstat("..", &stat_parent) ) 


/* change to parent and detect root */ 
if (((rtn = chdir(*..*)) == -1 && errno == ENOENT) || 
SAME_INODE(stat_child, stat_parent)) { 
if (head == NULL) 
ec_false( push_pathlist(&head, *") ) 
ec_null( path = get_pathlist (head) ) 
EC_CLEANUP 
} 
ec_negl( rtn ) 


/* read directory looking for child */ 
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ec_null( sp = opendir(".*) ) 
while (errno = 0, (dp = readdir(sp)) != NULL) { 
ec_negl( lstat(dp->d_name, &stat_entry) ) 
if (SAME_INODE(stat_child, stat_entry)) { 
ec_false( push_pathlist(&head, dp->d_name) ) 
break; 
J 
$ 
if (dp == NULL) ( 
if (errno == 0) 
errno = ENOENT; 
EC_FAIL 
J 
stat_child = stat_parent; 
} 


EC_CLEANUP_BGN 
if (sp != NULL) 
(void) closedir (sp); 
if (dirfd != -1) ( 
(void) fchdir (dirfd) ; 
(void) close (dirfd) ; 


} 
free_pathlist (&head) ; 
return path; 
EC_CLEANUP_END 
) 


该 函数 的 解释 如 下 : 1 
。 使 用 open/fchadizr 技 术 得 到 和 复位 当前 目录 ， 因 为 该 函数 遍历 树 时 会 改变 当前 目录 。 

。 在 循环 中 ，stat_child 是 试图 得 到 的 子 节点 的 记录 项 的 名 字 ，stat_entry 是 从 
readdir 得 到 的 每 个 记录 项 ，stat_parent 是 父 节点 ， 当 向 上 追溯 时 该 父 节点 又 会 变 


成 子 节点 。 
“在 本 节 开 始 部 分 解释 了 如 何 检测 是 否 到 达 根 节点 : choir aM aM, RERE 


事情 。 
。 如 果 到 达 根 节点 时 ， 链 接 表 为 空 ， 则 将 空 名 字 压 人 堆栈 以 使 路 径 名 为 /。 
* 在 readdiz 循 环 中 ， 虽 然 已 经 跳 过 了 非 目 录 的 记录 项 ， 但 是 实际 上 不 必 这 么 做 ， 因 为 


SAME_INODE 检 测 既 快 又 准确 。 
最 后 ， 下 面 是 一 段 使 用 上 述 函数 实现 的 小 程序 ， 该 程序 的 功能 类 似 于 标准 的 pwd 命 令 : 


int main(void) 
{ 
char *path; 
ec_null( path = getcwdx() ) 
printé("%s\n", path); 
free (path); 
exit (EXIT_SUCCESS) ; 


EC_CLEANUP_BGN 
exit (EXIT_FAILURE) ; 

EC_CLEANUP_END 

} 


3.6.5 实现 ftw (向 下 遍历 目录 树 ) 
对 于 标准 库 函 数 ftw (“file tree walk” 的 缩写 )， 这 里 不 做 特别 的 描述 ， 该 函数 提供 了 一 
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个 递归 处 理 目录 树 中 记录 项 的 方法 。 给 ftw 一 个 指向 函数 的 指针 ， 遇 到 每 个 对 象 时 都 会 调用 
这 个 函数 ， 但 是 更 有 趣 的 是 依据 本 章 所 学 知识 可 以 实现 自己 的 目录 树 遍 历 函数 。 

第 一 件 要 弄 清 的 事情 是 目录 结构 是 否 是 真正 的 树 ， 因 为 递归 算法 对 此 有 要 求 。 如 果 有 循 
环 ， 那 么 程序 将 会 变 成 死 循 环 ， 并 且 如 果 两 次 链接 同一 个 目录 (使 用 .和 .. 之 外 的 记录 项 )， 那 
么 将 会 不 只 一 次 地 访问 同一 个 目录 (及 其 分 支 )。 需 要 考虑 以 下 两 类 问题 : 

1) 符号 链接 链接 到 目录 是 很 平常 的 ， 并 且 至 少 会 创建 两 个 链接 ， 
硬 链 接 ， 但 没有 针对 符号 链接 建立 循环 的 保护 措施 。 

2) 在 一 些 系统 上 ， 超 级 用 户 通过 1ink 系 统 调 用 可 以 为 目录 创建 第 二 个 硬 链接 。 虽 然 这 种 
情况 几乎 不 会 出 现 ， 但 程序 要 考虑 它 的 可 能 性 。 

只 要 不 跟随 符号 链接 ， 就 可 以 容易 地 解决 第 一 类 问题 。 尽 管 练习 3.5 涉 及 了 第 二 类 问题 ， 
但 我 们 现在 不 谈 它 。 因 此 ， 为 了 达到 目的 ， 通 过 硬 链 接 形成 的 的 确 是 个 树 。 

我 们 希望 aup1s 程 序 (3.5.3 节 中 所 述 程序 的 扩展 ) 能 够 表现 出 1s 的 功能 ， 其 中 -R 参 数 
使 其 递归 ，-d 参 数 告诉 该 函数 仅 列 出 目录 的 信息 ， 而 不 是 目录 的 内 容 。 如 果 不 带 有 这 两 个 参 
数 中 的 任何 一 个 ， 那 么 auP1s 程 序 的 功能 就 和 以 前 的 早期 版 本 一 样 了 。 

带 有 -R 参 数 时 ，aupls 程 序 ( 如 1s 命令 一 样 ) 将 首先 列 出 目录 的 路 径 ， 以 及 同 层 上 的 所 
有 记录 项 ， 包 括 目 录 ， 接 着 对 每 个 目录 递归 地 做 同样 的 工作 ， 如 下 示例 : 


$ aupls -R /aup/common 


每 个 目录 还 有 一 个 





/aup/common: 


-rwxr-xr-x 1 root root 1145 Oct 2 10:21 makefile 

-rwxr-xr-x 1 root root 171 Aug 23 10:41 logf.h 

-rwxr-xr-x 1 root root 1076 Aug 26 15:24 logf.c 

drwxr-xr-x 1 root root 4096 Oct 2 12:20 cf 

-rwxr-xr-x 1 root root 245 Aug 26 15:29 notes.txt 
/aup/common/cf : 

-rwxr-xr-x 1 root root 1348 Oct 3 13:52 cf-ec.c-ec_push.htm 
-rwxr-xr-x 1 root root 576 Oct 3 13:52 cf-ec.c-ec_print.htm 
-rwxr-xr-x 1l root root 450 Oct 3 13:52 cf-ec.c-ec_reinit.htm 
-rwxr-xr-x 1 root root 120 Oct 3 13:52 cf-ec.c-ec_warn.htm 


从 代码 中 你 将 看 到 每 级 (一 个 readdir 循 环 ) 使 用 两 个 传递 ， 对 于 每 个 目录 第 一 个 传递 
(PASS1) 输出 “stat” 的 信息 ， 然 后 在 第 二 个 传递 (PASS2) 中 ， 接 着 我 们 利用 此 目录 中 的 
PASS1 进 行 递 归 ， 以 此 类 推 。 

在 这 个 程序 中 ， 以 结构 来 表现 传递 给 每 一 个 函数 的 遍历 信息 比 使 用 全 局 变量 或 者 长 参数 
列表 方便 。 


typedef enum (SHOW_PATH, SHOW_INFO) SHOW_OP; 


struct traverse_info ( 
bool ti_recursive; 
char *ti_name; 
struct stat ti_stat; 
bool (*ti_fcn) (struct traverse_info *, SHOW_OP); /* 


/* -R option? */ 
/* current entry */ 
/* stat for ti_name */ 
callback fen */ 


vi 


下 面 是 要 使 用 的 回调 函数 : 


static bool show_stat(struct traverse_info *p, SHOW_OP op) 


{ 
switch (op) { 
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case SHOW_PATH: 
ec_false( print_cwd(false) ) 
break; 

case SHOW_INFO: 
1s_long(&p->ti_stat, p->ti_name); 


} 


return true; 


EC_CLEANUP_BGN 
return false; 

EC_CLEANUP_END 

} 


把 op 设置 成 SHOW_PATH 调 用 show_stat 时 ， 输 出 的 是 路 径 名 的 头 ， 把 op 设置 成 
SHOW_INFO 调 用 show_stat 时 ,输出 的 是 明细 行 。1s_1long 来 自 于 3.5.3 节 ,print_cwd 
的 代码 与 3.4.2 节 的 几乎 完全 相同 : 

static bool print_cwd(bool cleanup) 

: char *cwd; 


if (cleanup) 
(void) get_ewd (true) ; 

else { 
ec_null( cwd = get_cwd(false) ) 
printf(*\nts:\n", cwd); 

$ 

return true; 


EC_CLEANUP_BGN 
return false; 

EC_CLEANUP_END 

} 


接 下 来 在 总 清理 代码 中 将 会 看 一 个 print_cwd (true) 调 用 。 
现在 跳 转 到 main 函 数 的 顶层 来 观察 程序 是 如 何 初始 化 的 ， 列 表 是 如 何 开始 工作 的 : 
#define USAGE "Usage: aupls [-Rd] [dir]\n* 
static long total_entries = 0, total_dirs = 0; 
int main(int argc, char *argv[]) 
{ 
struct traverse_info ti = (0}; 
int c, status = EXIT_FAILURE; 
bool stat_only = false; 


ti.ti_fcn = show_stat; 


while ((c = getopt(argc, argv, "dR")) != -1) 
switch(c) { 
case ‘d': 
stat_only = true; 
break; 
case 'R': 


ti.ti_recursive = true; 





fprintf(stderr, USAGE); 
EC_CLEANUP 
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switch (argc ~ optind) { 
case 0: 
ti.ti_mame = *.*; 
break; 
case 1: 
ti.ti_name = argvloptind]; 
break; 
default: 
fprintf(stderr, USAGE); 
EC_CLEANUP 
} 
ec_false( do_entry(&ti, stat_only) ) 
print£(*"\nTotal entries: %ld; directories = %ld\n*, total_entries, 
total_dirs); 
status = EXIT_SUCCESS; 
EC_CLEANUP 


EC_CLEANUP_BGN 
print_cwd (true) ; 
exit (status); 

EC_CLEANUP_END 

} 


全 局 变量 total_entries 和 total_dirs 用 于 保存 总 的 计数 ， 有 趣 的 是 在 程序 的 最 后 显示 
了 它们 的 内 容 ， 立 刻 就 可 以 看 到 它们 在 何 处 增加 。 

getopt 是 一 个 标准 库 函 数 (POSIX/SUS 的 组 成 部 分 ， 不 是 标准 C 的 内 容 )。 其 第 三 个 参 
数 是 一 个 可 允许 选项 的 字母 列表 。 它 完成 选项 后 ， 会 将 全 局 变量 optind 设 置 为 需要 处 理 的 
下 一 个 参数 的 索引 ， 在 例子 中 是 一 个 可 选 的 路 径 名 。 如 果 没 有 给 定 任何 参数 ， 则 假定 为 当前 
HR. 

do_entry 完 成 的 实际 工作 如 下 : 

static bool do_entry(struct traverse_info *p, bool stat_only) 


( 
bool is_dir; 


ec_negl( Istat(p->ti_name, &p->ti_stat) ) 
is_dir = S_ISDIR(p->ti_stat.st_mode) ; 
if (stat_only) { 

total_entries++; 

if (is_dir) 

total_dirs++; 

ec_false( (p->ti_fen) (p, SHOW_INFO) ) 
} 
else if (is_dir) 

ec_false( do_dir(p) ) 
return true; 


EC_CLEANUP_BGN 
return false; 

EC_CLEANUP_END 

} 

可 以 按 以 下 两 种 方式 之 一 使 用 do_entry: 如 果 stat_on1y 参 数 为 true 或 者 当前 记录 
项 不 是 目录 ， 就 增加 全 局 计数 器 ， 然 后 以 SHOW_INFO 模 式 调用 回调 函数 。 只 有 当 规 定 了 -d 
参数 以 及 在 aupls 命 令 行 或 者 在 目录 列表 的 PASS1 中 规定 了 非 目录 时 才 这 么 做 ， 否则， 将 调 
用 包含 readdir 循 环 的 函数 do_dir 处 理 目录 记录 项 : 
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static bool do_dir(struct traverse_info *p) 
{ 

DIR *sp = NULL; 

struct dirent *dp; 

int dirfd = -1; 

bool result = false; 





ec_negl( dirfd = open(".", O_RDONLY) ) 
if ((sp = opendir(p->ti_name)) == NULL || chdir(p->ti_name) == -1) { 
if (errno == EACCES) ( 
fprintf(stderr, "$s: Permission denied.\n", p->ti_name) ; 
result = true; 
EC_CLEANUP 
} 
EC_FAIL 
4 
if (p->ti_recursive) 
ec_false( (p->ti_fcn)(p, SHOW_PATH) ) 
while (errno = 0, ((dp = readdir(sp)) 
if (stremp(dp->d_name, ) == 0 || 
strcmp (dp->d_name, * == 0) 
continue; 
p->ti_name = dp->d_name; 
ec_false( do_entry(p, true) ) 





NULL)) { 








) 
if (errno != 0) 
syserr_print ("Reading directory (Pass 1)"); 
if (p->ti_recursive) ( 
rewinddir (sp); 
while (errno = 0, ((dp = readdir(sp)) != NULL)) ( 
if (stromp(dp->d_name, *.") ll 
stromp(dp->d_name, *..*) 
continue 
p->ti_name = dp->d_name; 
ec_false( do_entry(p, false) ) 





} 
if (errno != 0) 
syserr_print ("Reading directory (Pass 2)"); 
} 
result = true; 
EC_CLEANUP 
EC_CLEANUP_BGN 
if (dirfd t= -1) { 
(void) fchdir (dirfd) ; 
(void) close (dirfd) ; 
} 
if (sp != NULL) 
(void) closedir (sp); 
return result; 
EC_CLEANUP_END 
} 


do_dir 是 递归 发 生 的 地 方 。 它 向 当前 目录 打开 dirfd， 以 便 在 清理 代码 中 可 以 恢复 。 然 后 
用 opendir 打 开 目 录 ， 并 对 其 进行 修改 以 便 能 处 理 相对 于 父 目录 的 目录 记录 项 。 出 现 
EACCES 错 误 是 很 平常 的 ， 因 为 目录 是 不 可 读 的 (opendir 失 败 )， 或 者 不 可 查找 的 (chdir 
失败 )， 所 以 出 现 这 些 情况 时 仅 需要 输出 信息 ， 而 不 用 终止 处 理 。 

接 下 来 ， 如 果 设 定 了 -R 参 数 ， 那 么 告诉 回调 函数 输出 当前 目录 的 路 径 ， 这 表示 可 以 把 所 


有 的 常规 输出 都 定位 到 一 个 回调 函数 。 
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然后 进行 PASS1 的 readdiz 循 环 (其 中 调用 了 do_entry 函 数 ， 并 将 stat._only 设 置 成 
了 true)， 如 果 设 定 了 -R 参 数 ， 则 rewinddir 系 统 调用 将 进行 PASS2 的 readdir 循 环 (其 
中 调用 了 do_entry 函 数 ， 并 将 stat_only 设 置 成 了 false)。 因 为 PASS2 的 do_entry 可 
能 会 递归 调用 do_dir， 因 此 产生 递归 。 注 意 两 者 的 readdir 循 环 都 跳 过 了 .和 .. 记 录 项 ,默认 
情况 下 ls 命令 也 忽略 。 

对 于 来 自 readdir 的 错误 ,我们 决定 把 它 当 作 非 致命 的 ， 继 续 运行 程序 ， 而 不 是 用 
ec_nzero 宏 跳出 程序 ， 该 宏 解释 了 对 syserr_print 的 两 次 调用 ， 其 中 syserr_print 的 


代码 如 下 : 


void syserr_print (const char *msg) 


$ 
char buf [200]; 


fprintf(stderr, "ERROR: %s\n", syserrmsg(buf, sizeof(buf), msg, 
errno, EC_ERRNO)); 
} 


syserrmsg 1.4.14. 
这 就 是 我 们 自己 开发 的 1s 的 完整 的 递归 版 本 ! 


3.7 改变 信息 节点 


系统 调用 的 stat 族 ( 见 3.5.1 节 ) 是 从 信息 节点 中 检索 信息 的 ， 介 绍 这 一 族 时 还 解释 了 在 
操作 文件 时 信息 节点 中 的 各 种 数据 字段 是 如 何 改变 的 。 其 中 的 一 部 分 字段 也 可 以 通过 本 节 讨 
论 的 系统 调用 直接 更 改 。 表 3-3 列 出 了 能 实现 此 功能 的 系统 调用 。 符 号 “fixed” 是 指 字段 是 根 
本 不 可 更 改 的 (如 果 想 改变 该 字段 的 内 容 ， 则 必须 创建 一 个 新 的 信息 节点 )， 符 号 “side- 
effect” 是 指 仅 在 操作 其 他 函数 而 间接 影响 到 该 字段 时 ， 该 字段 才 是 可 以 更 改 的 ， 例 如 使 用 
link 函 数 创建 了 一 个 新 链接 ， 但 这 个 新 链接 是 不 能 直接 更 改 的 。 


表 3-3 改变 信息 节点 字段 








信息 节点 字段 Hio 改变 属性 
st_dev 文件 系统 的 设备 ID fixed 
st_ino 索引 节 号 “ fixed 
st_mode 模式 chmod，fchmod 
st-nlink 硬 链接 数 side-effect 
st_uid 用 户 ID chown, fchown, lchown 
st_gid 组 ID chown, fchown,1chown 
st_rdev 设备 ID (如 果 是 特殊 文件 ) fixed 
st_size 字 节 数 side-effect 
st_atime 最 后 存 取 时 间 utime 
st-mtime 最 后 数据 修改 时 间 utime 
st_ctime 最 后 信息 节点 修改 时 间 side-effect 
st_blksize 最 佳 UO 大 小 fixed 
st_blocks 分 配 的 512 字 节 块 side-effect 


— Ee 
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3.7.1 chmod 和 fchmod 系 统 调用 


chmod 一 一 根据 路 径 改 变 文 件 模式 
#include <sys/stat.h> 
int chmod( 


const char *path, /* pathname */ 
mode_t mode /* new mode */ 


de 
/* Returns 0 on success or -1 on error (sets errno) */ 


fchmod 一 一 根据 文件 描述 符 改变 文件 模式 


#include <sys/stat.h> 


int fchmod( 
int fd, /* file descriptor */ 
mode_t mode /* new mode */ 

) 

/* Returns 0 on success or -1 on error (sets errno) */ 





chmod 系 统 调 用 可 以 改变 已 存在 的 任何 文件 的 模式 。 但 是 它 并 不 能 改变 文件 类 型 本 身 ， 
而 是 仅 改变 Ss_ISUID、S_ISGID 和 S_ISVTX 标 志 或 者 权限 位 。 要 如 stat 结 构 规 定 的 那样 使 
用 这 些 宏 ( 见 3.5.1 节 )。fchmod 的 功能 与 chmod 相 似 ， 但 它 利用 的 仅 是 打开 的 文件 描述 符 而 


不 是 路 径 。 
调用 者 的 有 效用 户 ID 必须 与 文件 的 用 户 ID 匹配 ， 或 者 调用 者 必须 是 超级 用 户 。 仅 有 写 权 


限 或 者 仅 满足 调用 者 的 有 效 组 ID 与 文件 的 用 户 ID 匹 配 是 不 够 的 。 另外， 如 果 设 置 了 S_ISGID， 
那么 有 效 的 组 ID 也 必须 匹配 (除了 超级 用 户 )。 
除非 打算 设置 整个 模式 ， 否 则 首先 必须 调用 某 个 stat 函 数 得 到 已 经 存在 的 模式 ， 接 着 设 


置 或 清除 需要 改变 的 位 ， 最 后 执行 chmod 修 改 模式 。 
在 程序 中 不 常 调用 chmod， 因 为 创建 文件 时 通常 已 设置 了 模式 。 然 而 用 户 常常 使 用 


chmod 命 令 。 


3.7.2 chown、fchown 和 Ichown 系 统 调用 


ichown 一 一 根据 路 径 改 变 文件 的 所 有 者 和 文件 的 组 


#include <unistd.h> 


int chown( 
const char *path, /* pathname */ 
uid_t uid, /* new user ID */ 
gid_t gid /* new group ID */ 


) 7 
/* Returns 0 on success or -1 on error (sets errno) */ 


fchown 一 一 根据 文件 描述 符 改变 文件 的 所 有 者 和 文件 的 组 


#include <unistd.h> 


int fchown( 
int fd, /* file descriptor */ 
uid_t uid, /* new user ID */ 
gid_t gid 7* new group ID */ 

/* Returns 0 on success or -1 on error (sets errno) */ 
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ichown 一 一 通过 路 径 改变 符号 链接 的 所 有 者 和 组 


#include <unistd.h> 





int lchown( 


const char *path, /* pathname */ 
uid_t uid, /* user ID */ 
gid_t gid /* group ID */ 


/* Returns 0 on success or -1 on error (sets errno) */ 





chown 可 以 改变 文件 的 用 户 ID 和 组 ID。 只 有 所 有 者 (进程 的 有 效用 户 ID 与 文件 的 用 户 ID 
相同 ) 或 者 超级 用 户 才能 执行 它 。 如 果 uid 或 者 gid 为 -1， 将 不 处 理 对 应 的 ID 。 

fchown 与 之 类 似 ， 但 利用 的 是 打开 文件 描述 符 而 不 是 路 径 。1chown 也 相似 ， 但 它 是 直 
接 作用 于 路 径 参数 的 ， 如 果 是 符号 链接 ， 那 么 它 并 不 作用 于 符号 链接 所 指向 的 内 容 。 

除非 调用 者 是 超级 用 户 ， 否 则 这 些 系统 调用 将 清除 设置 用 户 ID 位 和 设置 组 ID 位 ， 这 是 为 
了 禁止 十 分 明显 的 非法 闻 人 和 人 : 


$ cp /bin/sh mysh [get a personal copy of the shell] 
$ chmod 4700 mysh (turn on the set-user-ID bit) 

$ chown root mysh (make the superuser the owner] 

$ my sh (become superuser] 


如 果 想 使 用 自己 的 超级 用 户 shell， 则 必须 颠倒 chmod 和 chown 的 顺序 ， 但 是 除非 已 经 是 超级 
用 户 ， 否 则 是 不 允许 执行 chmod 的 。 这 样 做 就 堵 住 了 漏洞 。 

如 果 设 置 了 宏 _POSIX_CHOWN_RESTRICTED (使 用 pathconf 和 fpathconf 检 测 )， 
则 要 对 某 些 UNIX 系 统 进行 配置 ， 以 便 用 略 有 不 同 的 规则 进行 操作 。 

只 有 超级 用 户 可 以 改变 所 有 者 (用户 ID)， 但 是 所 有 者 可 以 将 组 ID 改变 为 进程 的 有 效 组 ID 
或 者 所 提供 的 组 ID 中 的 一 个 。 换 句 话说 ， 所 有 者 不 能 放弃 文件 一 一 最 多 可 以 将 组 ID 改 成 与 进 
程 相关 的 组 ID 中 的 一 个 。 

因为 通常 可 以 通过 chown 命 令 (调用 chown 系 统 调用 ) 来 更 改 所 有 权 ， 所 以 这 些 规则 通 
常 不 会 直接 影响 应 用 程序 。 但 它们 会 影响 系统 管理 及 用 户 使 用 系统 的 方式 。 


3.7.3 utime 系 统 调 用 


utime 一 一 设置 文件 访问 时 间 和 修改 时 间 
#include <utime.h> 


int utime( 
const char *path, /* pathname */ 
const struct utimbuf *timbuf /* new times */ 

ve 

/* Returns 0 on success or -1 on error (sets errno) */ 


struct utimbuf 一 一 utime 的 结构 


struct utimbuf { 
time_t actime; /* access time */ 
time_t modtime; /* modification time */ 


ye 





utime 可 以 改变 任何 类 型 文件 的 访问 时 间 和 修改 时 间 。9 结 构 中 的 time_t 类 型 是 纪元 以 


O 在 一 些 系统 上 ， 有 一 个 类 似 的 系统 调用 utimes, 但 它 已 经 过 时 了 。 
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来 的 秒 数 ， 和 1.7.1 节 中 定义 的 一 样 。 只 有 超级 用 户 或 所 有 者 才能 通过 timbuf 参 数 改变 时 间 。 
如 果 timbuf 参 数 等 于 NULL， 则 访问 时 间 和 修改 时 间 被 设置 为 当前 时 间 。 这 样 做 可 以 强 
制 文件 更 新 到 当前 时 间 ， 而 不 需要 重 写 文件 ， 但 重要 的 是 为 了 touch 命 令 的 利益 。 任 何 具有 
写 权限 的 用 户 都 可 以 在 允许 写 操作 的 文件 上 做 这 个 事情 ， 因 为 写 操作 也 会 改变 文件 的 时 间 。 
除了 touch 外 ， 当 从 清除 磁带 中 恢复 文件 和 通过 网 络 接收 文件 时 ， 也 常常 使 用 atime， 
将 时 间 复 位 为 伴随 文件 而 来 的 初始 值 。 因 为 信息 节点 没有 移动 到 其 他 位 置 一 -新 创建 的 位 置 ， 
所 以 不 能 复位 状态 改变 时 间 是 合适 的 。 


3.8 其 他 的 文件 处 理 调用 
本 节 将 讨论 其 他 文件 处 理 系统 调用 ， 它 们 不 适合 前 面 章 节 的 内 容 。 
3.8.1 access 系统 调用 
与 处 理 权限 位 的 其 他 系统 调用 不 同 ，access 检 测 的 是 实际 用 户 ID 或 者 组 ID， 而 不 是 有 效 ID 。 
access 一 一 确认 文件 的 访问 


#include <unistd.h> 
int access ( 


const char *path, /* pathname */ 
int what /* permission to be tested */ 


) 
/* Returns 0 if allowed or -1 if not or on error (sets errno) */ 





参数 what 使 用 下 列 标志 ， 其 中 头 三 个 标志 可 以 一 起 执行 或 操作 : 


R_OK /* read permission */ 

W_OK /* write permission */ 

X_OK /* execute (search) permission */ 
FLOK /* test for existence */ 


如 果 进 程 的 实际 用 户 ID 与 其 路 径 的 匹配 ， 则 检测 所 有 者 权限 位 ; 如 果 进 程 的 实际 组 ID 与 
其 路 径 的 匹配 ， 则 检测 组 权限 位 ; 如 果 两 者 都 不 是 ， 则 检测 其 他 的 权限 位 。 

access 主 要 有 以 下 两 个 用 途 : 

。 检 测 实际 用 户 或 者 组 对 文件 是 否 有 操作 权限 ,以 防 设置 了 设置 用 户 ID 位 或 者 设置 组 ID 位 。 

例如 ， 在 执行 过 程 中 ， 可 能 会 有 一 个 命令 将 用 户 ID 设置 为 超级 用 户 ， 但 是 做 这 个 工作 之 

前 ， 需 要 检测 实际 用 户 是 否 有 把 文件 从 目录 断 开 的 权限 。 不 能 只 看 unlink 失 败 时 是 否 

带 有 ERACCES 错 误 ， 因 为 当 有 效用 户 ID 是 超级 用 户 时 ，unlink 不 会 再 因为 那 种 原因 而 

失败 。 

。 检 测 文件 是 否 存在 。 尽 管 可 以 使 用 stat ， 但 是 access 更 简单 。( 实 际 上 ， 整 个 

access 系 统 调用 可 以 写作 调用 stat 的 一 个 库 函 数 ， 在 某 些 实现 中 ， 甚 至 可 能 已 经 实现 

了 那 种 方式 .) 

如 果 path 是 符号 链接 ， 那 么 跟随 此 链接 ， 直 到 发 现 一 个 非 符号 链接 。® 

调用 access 时 ， 可 能 不 想 把 它 放 在 ec_neg1 宏 中 ， 因 为 ， 当 返回 值 为 -1 时 ， 需 要 从 其 
他 错误 中 区 分 是 EACCES 错 误 (对 于 R_OK 宏 、W_OK 宏 ,和 /或 x_OK 宏 ) 还 是 ENOENT 错 误 (对 
于 F_OK 宏 )。 采 用 如 下 的 方式 : 


日 、 实 际 情况 是 ， 除 非 以 字母 开始， 几乎 所 有 的 系统 调用 都 以 路 径 名 为 参数 。un1link 和 rename 是 两 个 例外 。 
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AHO 
if (access("tmp", F_OK) == 0) 
printf (*Exists\n*); 
else if (errno == ENOENT) 
print£(*Does not exist\n"); 
else 
EC_FAIL 


3.8.2 mknod 系 统 调 用 


mknod 一 一 建立 文件 
#include <sys/stat.h> 


int mknod( 
const char *path, /* pathname */ 


mode_t perms, /* mode */ 
dev_t dev /* device-ID */ 


ve 
/* Returns 0 on success or -1 on error (sets errno) */ 





mknod 可 以 创建 普通 文件 、 目 录 、 特 殊 文件 或 者 命名 管道 (FIFO )。 如 果 没 有 mkfifo 的 
话 ( 见 7.2.1 节 )， 那 么 唯一 的 优点 (唯一 不 需要 是 超级 用 户 的 ) 是 创建 命名 管道 。 创 建 普通 文 
件 (可 以 使 用 open 创 建 ) 或 者 目录 (可 以 使 用 mkdir 创 建 ) 不 需要 它 ， 也 不 能 用 它 来 创建 符 
号 链接 (可 以 使 用 symlink 创 建 ) 或 者 套 接 字 (可 以 使 用 bind 创 建 )。 

因此 ，mknod 的 主要 用 途 是 创建 特殊 文件 ， 通 常 在 /dev 目 录 中 ， 该 特殊 文件 常用 于 访问 
设备 。 因 为 通常 只 有 当 安 装 新 设备 驱动 器 时 ， 才 使 用 mknod 命 令 ， 它 会 执行 该 系统 调用 。 

Perms 参 数 和 3.5.1 节 定义 的 stat 结 构 使 用 相同 的 位 和 宏 ， 那 里 dev 被 定义 为 设备 ID。 如 
果 安 装 了 新 设备 驱动 器 ， 就 可 以 知道 该 设备 ID 是 什么 了 。 


3.8.3 fcntl 系 统 调 用 


在 2.2.3 节 中 (在 继续 向 下 看 之 前 你 可 能 需要 重新 读 一 下 ) ， 当 时 解释 说 几 个 打开 文件 描述 
从 能 共享 同一 个 打开 文件 描述 ， 该 文件 描述 含有 文件 偏 移 量 、 状 态 标志 (例如 0_APPEND) 
以 及 访问 模式 (例如 0_RDONLY)。 通 常 ， 可 以 在 打开 文件 时 设置 文件 的 状态 标志 和 访问 模式 ， 
但 是 也 可 以 通过 fcnt1 系 统 调用 在 任何 时 间 得 到 和 设置 状态 标志 ， 并 可 以 用 它 得 到 (但 不 设 
置 ) 访问 模式 。 


fent| 一 控制 打开 的 文件 


#include <unistd.h> 
#include <fcntl.h> 


int fentl( 
int fa, /* file descriptor */ 
int op, /* operation */ 
/* optional argument depending on op */ 
dy 
/* Returns result depending on op or -1 on error (sets errno) */ 








总 共有 10 种 操作 ， 但 这 里 仅 打算 介绍 其 中 的 4 种 ， 其 他 的 操作 将 在 其 他 地 方 介绍 ， 这 10 种 
操作 的 说 明 如 表 3-4 所 示 。 
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表 3-4 fcntl 操 作 
操 作 用 途 所 在 章节 
F_DUPFD 复制 文件 描述 符 6.3 节 
F_GETFD 得 到 文件 描述 符 标志 aN 
F_SETFD 设置 文件 描述 符 标志 (使 用 第 三 个 int 参 数 ) AG 
F_GETFL 得 到 文件 描述 符 状态 标志 和 访问 模式 本 节 
F_SETFL 设置 文件 描述 符 状态 标志 (使 用 第 三 个 int 参 数 ) 本 节 
F_GETOWN 和 套 接 字 一 起 使 用 ” 8.7 节 
F_SETOWN 和 套 接 字 一 起 使 用 * 8.7 节 
F_GETLK 得 到 一 个 镇 7.11.4 节 
F_SETLK 设置 或 者 清除 一 个 镇 TUNA 
F_SETLKW 设置 或 者 清除 一 个 镇 TA 


“因为 太 复杂 ， 而 无 法 在 此 概括 。 

对 于 所 有 “get” 和 “set” 操 作 ， 应 该 首先 得 到 当前 值 ， 设 置 或 清除 需要 修改 的 标志 ， 然 
后 才能 进行 设置 ， 即 使 只 是 定义 一 个 标志 。 即 使 以 后 要 增加 多 个 标志 ， 或 者 不 依赖 于 实现 并 
且 有 不 了 解 的 非 标准 参数 ， 用 这 种 方法 实现 的 代码 也 仍然 有 效 。 例 如 ， 这 样 设 置 0_APPEND 
标志 是 错误 的 : 

ec_negl( fcnt1(ftda，F_SETFL，O_APPEND) ) /* wrong */ 
正确 的 方法 是 : 


ec_negl( flags = fcntl(fd, F_GETFL) ) 
ec_negl( fentl(fd, F_SETFL, flags | O_APPEND) ) 


如 果 需 要 清除 0_APPEND 标 志 ， 则 第 二 行 代码 可 以 这 样 改 : 

ec_negl( fentl(fd, F_SETFL, flags & ~O_APPEND) ) 
(规则 是 : 用 或 操作 来 实现 设置 ， 用 与 操作 来 实现 清除 。) 

唯一 定义 的 标准 文件 描述 符 标志 是 执行 关闭 (close-on-exec) 标志 FD_CLOEXEC， 该 标 
志 表示 :; 在 执行 exec 系 统 调用 时 ， 是 否 会 关闭 文件 描述 符 。5.3 节 中 对 执行 关闭 将 进行 更 详细 
的 介绍 ， 对 其 可 以 进行 F_GETFD 和 F_SETFD 操 作 。 这 是 fctn1 的 重要 用 途 ， 因 为 打开 文件 时 
没有 设置 该 参数 。 

对 文件 描述 符 状态 标志 和 访问 模式 使 用 F_GETFL 和 PF_SETFL 操 作 ， 访 问 模式 可 以 使 用 
0_RDONLY、0_WRONLY 或 者 0_RDWR 三 个 标志 中 的 一 个 ， 但 只 能 获得 不 能 设置 。 因 为 这 些 是 
标志 值 ， 不 是 位 掩 码 ， 所 以 必须 用 0_ACCMODE 从 返回 值 中 取出 这 些 标志 ， 像 这 样 : 


ec_neg1( flags = fcntl(fd, F_GETFL) ) 


if ((flags & O_ACCMODE) == O_RDONLY) 
/* file is opened read-only */ 
下 面 两 个 1£ 语 句 都 是 错误 的 : 
if (flags & O_RDONLY) /* wrong */ 


if ((flags & O_RDONLY) == O_RDONLY) /* still wrong */ 

在 2.4.4 节 表 2-1 中 所 列 的 状态 标志 更 有 意义 。 可 以 得 到 和 设置 0_APPEND、0_DSYNC、 
0_NOCTTY、0_NONBLOCK、0_RSYNC 和 0_SYNC 标 志 ; 可 以 得 到 0_CREAT、0_TRUNC 和 
0_EXCL 的 标志 值 ， 但 设置 这 些 标志 的 值 是 没有 意义 的 ， 因 为 这 些 标志 只 对 open 系 统 调用 起 
作用 (调用 函数 后 再 设置 这 些 参 数 就 迟 了 )。 前 面 给 出 过 一 个 使 用 0_APPEND 标 志 的 例子 。 
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在 4.2.2 节 和 7.2 节 中 还 有 几 个 关于 0_NONBLOCK 标 志 的 例子 。 


3.9 异步 /O 


本 节 将 介绍 如 何 初 始 化 MO 操作 ， 以 便 程序 不 必 等待 HO 工 作 完成 ， 就 可 以 离开 去 做 其 他 事 
情 ， 并 在 随后 的 时 间 中 检测 MO 操作 的 状态 。 


3.9.1 进一步 比较 已 同步 的 与 同步 的 

在 阅读 本 节 之 前 , 一 定 要 先 阅读 2.16.1 节 , 那 一 节 中 解释 了 已 同步 的 (与 非 已 同步 的 对 比 )。 
本 节 要 讨论 的 是 异步 1O， 即 系统 调用 (例如 aio_read) 初始 化 IO 操作 后 ， 在 IO 操作 完成 
之 前 该 系统 调用 已 经 返回 ， 完 成 工作 是 分 别 进行 的 。 也 就 是 说 : 

* 已 同步 的 是 指 MO 操 作 与 物理 MO 是 同时 完成 的 。 非 已 同步 的 是 指 进程 和 缓存 之 间 的 MO 完 

成 就 可 以 了 。 

。 同 步 的 是 指 仅 当 LO 完 成 后 ， 系 统 调用 才 返 回 ， 如 前 面 段落 定义 的 一 样 。 异 步 的 是 指 初 
始 化 IO 完成 之 后 系统 调用 立刻 返回 ， 然 后 用 其 他 系统 调用 来 检测 IO 操作 是 否 完成 。 
一 句 话 就 是 : 同步 的 /异步 的 是 指 调用 是 否 需要 等 待 JO 完 成 ， 已 同步 的 / 非 已 同步 的 强调 的 是 

“完成 ”了 什么 。 

我 们 假设 读者 对 信号 的 工作 原理 已 经 有 所 了 解 ， 这 里 阅读 本 节 内 容 的 前 提 ， 如 果 还 不 了 
解 ， 那 么 在 阅读 本 节 之 前 请 阅读 第 9 章 ， 或 者 至 少 参照 第 9 章 的 部 分 内 容 ， 特 别 是 9.5.6 节 。 

如 2.9 节 讲述 的 ， 在 UNIX 中 大 部 分 write 操作 某 种 程度 上 都 已 经 是 异步 操作 了 ， 因 为 数 
据 被 传递 给 缓存 后 系统 调用 都 会 立即 返回 ， 之 后 才 完 成 实际 的 输出 。 但 是 如 果 设 置 了 o_SYNC 
或 者 0_DSYNC 标 志 ( 见 2.16.3 节 )， 则 write 操作 要 到 完成 了 实际 输出 之 后 才 返回 。 相 反 ， 一 
般 情 况 下 read 操 作 通常 包含 等 待 实际 和 输入， 因为 直到 物理 上 读 取 了 数据 ， 才 能 进行 read 操 
作 ， 除 非 进行 了 预 读 取 或 者 数据 恰好 在 缓冲 区 中 。 

对 于 异步 /0 来 说 (AIO)， 进 程 不 必 等 待 read， 或 者 已 同步 的 (设置 了 0O_SYNC 或 者 
0_DSYNC 标 志 的 ) write。 初 始 化 IO 操作 后 ，AIO 调 用 会 立刻 返回 ， 随 后 进程 可 以 调用 
aio_error 来 检测 操作 是 否 已 经 完成 ， 或 者 通过 信号 或 创建 新 线程 ( 见 5.17 节 ) 通知 它 操作 
什么 时 间 完 成 。 

这 里 使 用 的 “已 经 完成 ” 仅 指 read 和 write 所 操作 的 ， 并 不 是 指 HO 是 已 同步 的 ， 除 非 
将 文件 描述 符 设置 为 同步 ， 如 2.16.3 节 解释 的 那样 。 因 此 有 4 种 情况 ， 见 表 3-5。 


表 3-5 ”已 同步 的 与 同步 的 读 写 操作 比较 
同 步 的 异步 的 





非 已 同步 的 ”read/write; 清 除 0_SYNC 和 0_DSYNC ”aio_read/aio_write; 清 除 0_SYNC 和 0_DSYNC 
已 同步 的 read/write; 设 置 0 SYNC 或 0 DSYNC “aio_read/aio_write; 设 置 0_SYNC 或 0_DSYNC 


如 果 可 以 对 应 用 程序 进行 组 织 ， 以 便 应 用 程序 在 需要 数据 之 前 可 以 初始 化 read， 随 后 还 
可 以 进行 其 他 有 用 的 工作 ， 那 么 无 论 read 是 已 同步 的 还 是 非 已 同步 的 ，AIO 都 可 以 增加 其 性 
能 。 但 是 如 果 在 此 期 间 进程 没有 其 他 工作 可 以 做 ， 那 么 也 可 以 阻塞 read， 让 另 一 个 进程 或 者 
线程 运行 。AIO 对 已 同步 的 write 有 用 ， 对 非 已 同步 的 write 没有 太 大 用 处 ， 因 为 缓存 已 经 


做 了 同样 的 事情 。 
不 要 将 异步 1/0 与 通过 0_NONBLOCK 标 志 设 置 的 非 阻塞 /0 混淆 ( 见 2.4.4 节 和 4.2.2 节 )。 非 
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阻塞 是 指 如 果 阻塞 ， 则 调用 返回 ,但 它 不 做 工作 。S 异 步 是 指 初始 完成 后 则 返回 。 

AIO 函 数 是 异步 输入 /输出 选项 的 一 部 分 , 如 _POSIX_ASYNCHRONOUS_IO 宏 代表 的 内 容 。 
可 以 在 运行 时 通过 pathconf 来 检测 ，1.5.4 节 给 出 了 完成 这 项 工作 的 示例 代码 。 

本 节 中 的 一 个 系统 调用 1io_1istio 既 可 以 用 于 同步 0 操作 ， 也 可 以 用 于 异步 1O 操 作 。 


3.9.2 AIO 控制 块 


所 有 的 AIO 系 统 调用 都 使 用 控制 块 来 跟踪 操作 的 状态 ， 不 同 的 操作 必须 使 用 不 同 的 控制 
块 。 当 然 ， 操 作 完 成 时 ， 控 制 块 可 以 被 重用 。 


struct aiocb 一 一 AIO 控 制 块 


struct aiocb { 
int aio_fildes; /* file descriptor */ 
off_t aio_offset; /* file offset */ 
volatile void *aio_buf; /* buffer */ 


size_t aio_nbytes; * size of transfer */ 
int aio_reqprio; * request priority offset */ 
struct sigevent aio_sigevent; /* signal information */ 

int aio_lio_opcode; /* operation to be performed */ 





前 4 个 成 员 与 pread 和 pwrite 中 的 相似 ( 见 2.14 节 )， 也 就 是 说 ， 包 括 read 和 write 的 
三 个 参数 以 及 隐 含 的 Lseek 的 文件 偏 移 量 。 

在 9.5.6 节 中 详细 解释 了 sigevent 结 构 ， 当 操作 完成 时 ， 可 以 利用 该 结构 重新 产生 信号 ， 
或 者 开始 一 个 线程 。 可 以 向 信号 句柄 或 线程 传递 任意 一 个 整数 或 者 指针 值 ， 通 常 这 将 是 一 个 
指向 控制 块 的 指针 。 如 果 不 需 要 信号 或 者 线程 ， 那 么 可 以 将 成 员 aio_sigevent.sigev_ 


notify 设 置 成 SIGEV_NONE。 
aio_reqprio 成 员 用 于 影响 操作 的 优先 权 ， 并 且 只 有 在 支持 其 他 两 个 POSIX 选 项 
(_POSIX_PRIORITIZED_IO#f]_POSIX_PRIORITY_SCHEDULING) 时 ， 才 可 以 使 用 该 成 


员 。 关 于 该 成 员 的 更 多 特征 ， 请 参阅 [SUS2002]。 
最 后 一 个 成 员 aio_1io_opcode 是 与 1io_1istio 系 统 调用 一 起 使 用 的 ， 具体 解释 见 


3.9.9 节 。 


3.9.3 aio_read 和 aio_write 


基本 的 AIO 函 数 是 aio_read 和 aio_write。 与 pread 和 pwrite 一 样 , aio_offset 
成 员 决 定 着 文件 中 1/O 发 生 的 位 置 。 当 文件 描述 符 打 开 了 一 个 不 允许 检索 的 设备 (例如 套 接 字 )， 
或 者 对 aio_write 设 置 了 0_APPEND 标 志 ( 见 2.8 节 ) 时 ， 它 是 无 效 的 。 缓 冲 区 和 大 小 位 于 控 


制 块 中 ， 不 是 作为 参数 传递 的 。 
aio_read 一 一 从 文件 中 异步 读 


#include <aio.h> 


int aio_read( 
struct aiocb *aiocbp /* control block */ 


) 
/* Returns 0 on success or -1 on error (sets errno) */ 





© connect Epis; 见 8.12 节 。 


AAO 129 








aio_write 一 一 异步 写 人 文件 


#include <aio.h> 


int aio_write( 
struct aiocb *aiocbp /* control block */ 


J; 
/* Returns 0 on success or -l on error (sets errno) */ 





从 这 些 函 数 成 功 返回 仅仅 意味 着 操作 已 被 初始 化 ， 当 然 并 不 意味 着 IO 是 成 功 的 ， 也 不 意 
味 着 控制 块 设置 的 值 是 对 的 。 总 是 需要 通过 aio_error (下 一 节 介 绍 ) 来 检测 结果 。 执 行程 
序 也 许 会 立刻 报告 像 无 效 偏 移 量 那样 的 错误 ， 由 aio_read 或 者 aio_write 返 回 值 ~1, 或 者 
返回 值 0 并 随后 报告 坏 消息 。 


3.9.4 aio_error 和 aio_return 


aio_error 一 一 为 异步 IO 操作 检索 错误 状态 


#include <aio.h> 


int aio_error( 


const struct aiocb *aiocbp /* control block */ 


/ 


ve 
/* Returns 0, errno value, or EINPROGRESS (does not set errno) 





如 果 操 作 完成 ， 即 操作 是 成 功 的 ， 则 aio_error 会 返回 值 0， 或 者 返回 errno 值 ,该 
errno 值 与 read、write、fsync 或 fdatasync 可 能 会 返回 的 值 相同 ( 见 2.9 节 、2.10 节 和 
2.16.2 节 )。 如 果 操 作 没 有 完成 ， 则 返回 EINPROGRESS。 如 果 知道 操作 已 经 完成 (例如 得 到 
了 通知 已 完成 的 信号 )， 则 可 以 像 对 待 其 他 错误 一 样 对 待 EINPROGRESS， 并 使 用 ec_rv 宏 ， 
如 3.6.1 节 介绍 的 那样 : 

ec_rv( aio_error (aiocbp) ) 
尽管 如 此 ， 还 是 要 提 及 一 下 ， 异 步 JO 调 用 通常 都 被 用 于 相当 高 级 的 应 用 程序 ， 在 这 种 情况 下 ， 
简单 的 “ec” 错 误 检测 可 能 就 不 再 适用 了 ， 如 1.4.2 节 提 到 的 。 但 在 开发 过 程 中 ，ec_rv 仍 是 
有 用 的 ， 因 为 它 提供 了 函数 调用 跟踪 的 能 力 。 

即使 aio_error 报 告 了 操作 是 成 功 的 ， 也 还 是 需要 从 等 价 的 read 或 write 函 数 中 得 到 
实际 传输 字 节 数 的 返回 值 时 ， 可 以 利用 aio_return: 


aio_return 一 一 检索 异步 IO 操作 的 返回 状态 


#include <aio.h> 


ssize_t aio_return( 


struct aiocb *aiocbp /* control block */ 


) 
/* Returns operation return value or -1 on error (sets errno) */ 





只 有 当 aio_error 报 告 成 功 的 情况 下 ， 才 可 以 调用 aio_return。 当 aio_return 返 
回 -1 时 是 指 调用 出 错 ， 而 不 是 指 该 操作 返回 了 错误 。 同 样 ， 在 每 次 操作 中 只 能 调用 一 次 
aio_return， 因 为 检索 完毕 后 ， 系 统 将 立即 丢弃 返回 值 。 


130 HE 





3.9.5 aio_cancel 
可 以 通过 aio_cancel 函 数 取消 未 完成 的 异步 操作 : 


aio_cancel 一 一 取消 异步 JO 请 求 


#include <aio.h> 





int aio_cancel( 
int fd, /* file descriptor */ 


struct aiocb *aiocbp /* control block */ 


) 
/* Returns result code or -1 on error (sets errno) */ 





如 果 aiocbp 参 数 是 NULL ， 则 该 调用 会 尝试 取消 文件 描述 符 fd 上 的 所 有 异步 操作 。 没 有 
取消 掉 的 操作 将 仍 会 按照 正常 方式 报告 完成 情况 ， 但 已 取消 的 操作 会 通过 aio_error 报 告 错 
误 代码 ECANCELED。 

如 果 aiocbp 参 数 不 是 NULL ， 则 aio_cancel 仅 会 尝试 取消 以 这 个 控制 块 开 始 的 操作 。 
在 这 种 情况 下 ，fd 参 数 必须 与 控制 块 中 的 aio_fildes 成 员 相同 。 

如 果 aio_cancel 成 功 ， 则 返回 下 面 结果 代码 中 的 一 个 : 

AIO_CANCELED 取消 了 所 有 的 请 求 操作 。 

AIO_NOTCANCELED ”因为 请 求 的 操作 已 经 进行 ， 所 以 其 中 的 一 个 或 多 个 (也 许 是 所 有 
的 ) 操作 不 能 被 取消 。 必 须 在 每 个 操作 上 调用 aio_erroz 来 找 出 哪些 操作 被 取消 了 。 

AIO_ALLDONE 因为 所 有 操作 都 已 经 完成 ， 所 以 没有 一 个 请 求 操作 被 取消 。 


3.9.6 aio_fsync 

除了 read 和 write 的 等 价 物 之 外 ， 还 有 第 三 种 可 以 异步 工作 的 IO: 缓存 的 刷新 ， 可 以 
利用 fsync 或 fdatasync 来 实现 (2.16.2 节 介绍 了 两 者 的 区 别 )。 这 两 种 刷新 方式 由 同一 调用 
控制 : 


aio_fsync 一 一 为 某 个 文件 初始 化 缓存 刷新 


#include <aio.h> 


int aio_fsync( 
int op, /* O_SYNC or O_DSYNC */ 


struct aiocb *aiocbp /* control block */ 


ve 
/* Returns 0 on success or -1 on error (sets errno) */ 





与 其 他 调用 相 比 ， 控 制 块 的 使 用 有 点 不 同 : 不 仅仅 是 刷新 那些 以 控制 块 开 始 的 、 与 操作 
相关 的 缓存 ， 而 且 要 刷新 所 有 由 aio_fildes 成 员 给 定 的 、 与 文件 描述 符 相关 的 缓存 ， 即 使 
仅 有 一 个 缓存 。 同 步 的 请 求 (如 刷新 缓冲 区 ) 是 异步 的 : 同步 没有 立刻 发 生 ， 仅 仅 是 被 初始 
化 了 ， 可 以 采用 普通 方式 检测 其 是 否 完成 (如 使 用 aio_erroz 或 信号 )。 因 此 ， 在 使 用 
aio_read 和 aio_write 时 ， 返 回 值 为 0 仅 表示 初始 化 成 功 了 。 


3.9.7 aio_suspend 
当 LO 完 成 时 ， 不 用 通过 信号 或 者 线程 异步 通知 ， 而 是 可 以 通过 简单 地 等 待 其 完成 来 实现 
同步 : 
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aio_suspend 一 一 等 待 异 步 IO 操作 请 求 


#include <aio.h> 


int aio_suspend( 


const struct aiocb *const list{], /* array of control blocks */ 
/* number of elements in array */ 
AE 


int cbent, 
const struct timespec ‘timeout  /* max time to wait 
j; 
/* Returns 0 on success or -1 on error (sets errno) */ 





如 果 timeout 为 NULL， 那 么 aio_suspend 会 取得 一 个 cbcnt 控 制 块 的 数组 并 阻塞 ， 直 
到 其 中 的 一 个 控制 块 完成 。 每 一 个 块 都 必须 已 经 用 于 初始 化 异步 JO 操 作 。 在 调用 期 间 ， 只 要 
有 一 个 块 已 经 完成 ，aio_suspend 就 会 立即 返回 。 

为 了 重新 使 用 同一 个 数组 ， 可 以 将 1ist 中 的 一 个 元 素 设 置 为 NULL， 但 是 这 个 元 素 应 该 
是 包含 在 cbcnt 中 。 

如 果 timeout 不 为 NULL， 则 aio_suspend 至 多 阻塞 那 段 时 间 ， 然 后 返回 -1， 并 把 
errno 设 置 成 EAGAIN。timespec 的 结构 见 1.7.2 节 。 

像 其 他 大 多 数 阻塞 系统 调用 一 样 ， 信 号 能 中 断 aio_suspend， 有 关 的 进一步 解释 见 
9.1.4 节 。 这 又 产生 了 一 个 很 棘手 的 问题 : 根据 如 何 创建 控制 块 ，aio_suspend 等 待 的 结果 是 产 
生 一 个 信号 ， 该 信号 可 能 会 造成 aio_suspend 中 断 ， 这 又 造成 返回 值 -1， 并 将 error 设 置 
为 EINTR。 在 某 些 情况 下 ， 返 回 值 没有 错误 ,但 问题 是 : EINTR 返 回 值 可 能 是 由 其 他 某 个 信 
号 引起 的 ， 而 不 正好 是 完成 的 1/O 请 求 引起 的 。 按 照 以 下 两 种 方式 之 一 ， 可 以 避免 异步 完成 信 
号 中 断 aio_suspend: 

。 利 用 信号 指出 已 完成 或 调用 aio_suspend， 但 只 能 用 一 种 。 

。 为 信号 设置 SA_RESTART 标 志 ( 见 9.16 节 )。 

或 者 是 ， 让 信号 中 断 aio_suspend， 接 着 为 传递 给 aio_suspend 列 表 的 每 个 元 素 调 用 
aio_error， 如 果 有 事情 发 生 ， 当 其 返回 时 可 以 查看 发 生 了 什么 事情 ， 如 果 没 有 事情 发 生 ， 
则 重新 发 出 aio_suspend (也 许 在 循环 中 )。 


3.9.8 ”比较 同步 /O 和 异步 I/O 的 示例 


本 节 将 举例 说 明 如 何 使 用 AIO 系 统 调用 ， 并 列举 一 些 优 于 同步 1O 的 优点 。 
首先 ， 下 面 给 出 一 个 名 为 sio 的 程序 ， 该 程序 使 用 传统 的 同步 /0 方式 读 取 文件 。 每 读 


8000 次 ， 该 程序 也 可 以 读 取 标准 输入 。 


#define PATH */aup/c3/datafile.txt* 
define FREQ 8000 


static void synchronous (void) 
{ 
int fd, count = 0; 
ssize_t nread; 
char buf1(512], buf2(512); 


ec_negl( fd = open(PATH, O_RDONLY) ) 
timestart (); 
while (true) ( 
ec_negl( nread = read(fd, bufl, sizeof(buf1)) ) 
if (nread == 0) 
break; 
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if (count % FREQ == 0) 
ec_negl( read(STDIN_FILENO, buf2, sizeof(buf2)) ) 
count++; 
) 
timestop(*synchronous") ; 
printf ("read %d blocks\n*, count); 
return; 


EC_CLEANUP_BGN 

EC_FLUSH ("synchronous") 
EC_CLEANUP_END 
} 


(timestart 和 timestop 见 1.7.2 节 ) 
标准 输入 与 管道 是 相连 的 ， 管 道 是 通过 名 为 feed 的 程序 填充 的 : 
$ feed | sio 


feed 是 一 个 很 难处 理 的 写 操作 一 一 每 20 秒 才 完 成 一 次 写 操作 : 


int main(void) 
{ 
char buf[512]; 


memset (buf, ‘x', sizeof (buf)); 
while (true) { 
sleep(20); 
write(STDOUT_FILENO, buf, sizeof (buf)); 


} 


这 种 利用 管道 方式 实现 的 写 操作 ，sio 花 费 了 0.12 秒 用 户 CPU 时 间 ，0.73 秒 系统 CPU 时 间 ， 从 


开始 运行 到 完成 总 共 花 费 了 200.05 秒 。 显 然 其 中 很 多 时 间 都 浪费 在 了 等 待 管道 输入 上 。 


这 是 个 人 为 的 例子 ， 但 是 尽管 如 此 ， 却 可 以 通过 异步 O 来 减少 所 花费 的 时 间 。 如 果 可 以 


异步 读 取 管 道 ， 则 在 此 期 间 就 可 以 读 文件 ， 重 写 代码 如 下 : 


static void asynchronous (void) 
{ 
int fd, count = 0; 
ssize_t nread; 
char buf1[512], buf2[512]; 
struct aiocb cb; 
const struct aiocb *list[1] = { &cb }; 


memset (&cb, 0, sizeof (cb)); 
cb.aio_fildes = STDIN_FILENO; 
cb.aio_buf = buf2; 
cb.aio_nbytes = sizeof (buf2); 
cb.aio_sigevent.sigev_notify = SIGEV_NONE; 
ec_negl( fd = open(PATH, O_RDONLY) ) 
timestart (); 
while (true) { 
ec_negl( nread = read(fd, bufl, sizeof (buf1)) ) 
if (nread == 0) 
break; 
if (count % FREQ == 0) { 
if (count > 1) { 
ec_negl( aio_suspend(list, 1, NULL) ) 
ec_rv( aio_error(&cb) ) 
j > 
ec_neg1( aio_read(&cb) ) 
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} 


count++; 


$ 

timestop ("asynchronous") ; 
print£(*read td blocks\n", count); 
return; 


EC_CLEANUP_BGN 
EC_FLUSH ("asynchronous") 

EC_CLEANUP_END 

} 


注意 控制 块 的 建立 方法 : 首先 将 其 清 零 ， 以 保证 其 他 任何 依赖 于 实现 的 成 员 都 为 0， 每 读 
8000 次 (前面 定 义 的 FREQ)， 程 序 调用 aio_read， 接 着 在 aio_suspend 中 等 待 控 制 块 为 下 
一 次 调用 做 准备 。 然 而 当 aio_read 工 作 时 ， 它 会 继续 读 文件 ， 再 不 必 为 8000 多 次 的 读 挂 起 。 
这 次 因为 用 户 这 段 时 间 有 很 多 工作 要 做 ， 所 以 用 户 CPU 所 花费 的 时 间 变 长 一 -0.18 秒 。 系 统 时 
间 基 本 没 变 (0.7 秒 )， 但 是 总 的 花费 时 间 却 减少 到 了 180.58 秒 。 

使 用 AIO 时 ， 可 能 总 是 看 不 到 其 太 大 的 优越 性 ， 但 是 有 时 可 以 发 现 一 个 比 这 个 例子 更 好 的 
示例 ， 关 键 是 : 

。 当 1/O 异 步 工作 时 ， 程 序 必须 有 一 些 事情 可 做 。 

。 受 益 必须 超过 增加 的 开销 和 系统 调用 次 数 。 也 可 能 需要 考虑 增加 的 程序 复杂 性 和 并 不 是 

所 有 的 系统 上 都 支持 AIO 的 事实 。 


3.9.9 lio_listio 
控制 块 列表 还 有 一 些 其 他 的 用 途 : 将 1/O 请 求 打包 到 一 起 ， 用 单个 调用 对 其 进行 初始 化 : 


lio_listio 一 一 列 出 定向 的 IO 
W#include <aio.h> 


int lio_listio( 


int mode, LIO_WAIT or LIO_NOWAIT */ 


ys 
struct aiocb *const list{], /* array of control blocks */ 
J. 
7. 


number of elements in array */ 


int cbent, 
NULL or signal to generate */ 


struct sigevent *sig 
ds 
/* Returns 0 on success or -1 on error (sets errno) */ 





和 aio_suspend 一 样 ，1io_listio 也 取得 一 个 cbcnt 控 制 块 的 链表 ， 忽 略 了 链表 中 
的 NULL 元 素 ， 并 且 不 按照 特定 顺序 初始 化 请 求 。 由 控制 块 的 aio_1io_opcode 成 员 规定 每 
个 操作 : 

LIO_READ 类 似 于 调用 了 aio_read 或 pread。 

LIO_WRITE ”类似 于 调用 了 aio_write 或 pwrite。 

LIO_NOP 空 操作 ; 忽略 控制 块 。 

mode 参 数 决定 了 1io_1istio 初 始 化 的 1/O 是 同步 的 还 是 异步 的 ， 如 表 3-6 所 示 ， 该 表 与 
表 3-5 相 似 ( 见 3.9.1 节 )。 

表 3-6 已 同步 的 与 同步 的 lio_listio 比 较 
同步 的 异步 的 


非 已 同步 的 。 LIO_WAIT; 清除 0_SYNC 和 0_DSYNC LIO_NOWAIT; 清除 0_SYNC 和 0_DSYNC 
已 同步 的 LIO_WAIT; 设置 0_SYNC 或 0_DSYNC LIO_NOWAIT; 设置 0_SYNC 或 0_DSYNC 
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因此 ， 与 “aio” 系 统 调用 不 同 的 是 ，1io_1istio 不 仅 只 用 于 异步 1O， 也 可 以 用 于 需要 
打包 1/O 调 用 的 任何 时 间 。 

对 异步 1io_1istio 来 说 ， 当 模式 是 LIO_NOWAIT 时 ， 可 以 通过 信号 或 通过 带 有 sig 参 
数 启动 的 线程 来 请 求 通知 ， 这 恰好 与 控制 块 中 的 aio_sigevent 成 员 的 作用 一 样 。 但 是 这 里 
不 同 的 是 ， 通 知 是 指 链表 中 所 有 已 经 完成 的 请 求 ， 仍 可 以 通过 个 体 控制 块 中 的 aio_ 
sigevent 成 员 获 得 要 求 完成 的 通知 。 

LIO_WAIT 并 不 使 用 sig 参 数 。 

对 于 部 分 其 他 AIO 调 用 来 说 ，1io_1istio 的 成 功 返 回 仅 指 该 调用 运行 良好 。 该 返回 值 
对 通过 aio_error 检 测 的 IO 操作 没有 任何 作用 。 


练习 


3.1 依据 3.2.2 节 中 最 后 一 段 建议 的 那样 修改 该 节 中 的 程序 。 

3.2 编写 标准 df 命令 的 实现 代码 。 

3.3 依据 3.6.2 节 中 最 后 一 段 建议 的 那样 修改 该 节 中 的 aupls 命 令 。 

3.4 修改 3.6.4 节 中 的 getcwdx 函 数 ， 以 便 不 更 改 当 前 目录 。 

3.5 修补 3.6.5 节 开头 描述 的 问题 2。 

3.6 修改 3.6.5 节 中 的 aupls 命 令 ， 以 便 可 以 通过 名 字 排 序列 表 。 

3.7 修改 3.6.5 节 中 的 aupls 命 令 ， 以 便 可 以 通过 -t 选 项 修改 时 间 和 名 字 排 序 。 

3.8 修改 3.6.5 节 中 的 aupls 命 令 ， 以 便利 用 其 他 的 标准 选项 ( 可 选择 的 )。 

3.9 写 一 段 可 以 复制 整个 目录 树 和 文件 的 程序 。 访 程序 应 该 带 有 两 个 参数 : 树 的 根 节点 (例如 

/usr/marc/book) 和 复制 的 根 节点 (例如 /usr/marc/backup/book)。 不 必 处 理 符号 链接 或 硬 链 接 (也 就 

是 说 生成 多 个 复制 是 可 以 的 )， 也 不 必 保 持 所 有 权 、 权 限 位 或 者 时 间 。 

3.10 与 练习 3.9 类 似 ， 但 为 了 增加 可 行 性 ， 要 保持 所 有 权 、 权 限 位 和 时 间 。 使 程序 “可 行 性 ”依靠 该 命 
令 是 否 作为 超级 用 户 运行 。 

3.11 与 练习 3.10 类 似 ， 但 是 要 保持 符号 链接 结构 和 硬 链接 结构 。 

3.12 为 什么 没有 lchmod 系 统 调用 ? 

3.13 把 access 写 成 函数 。 可 以 使 用 除了 access 之 外 的 任何 系统 调用 。 

3.14 用 lio_listion 实 现 readv 和 writev ( 见 2.15 节 )。 以 这 种 方式 实现 有 什么 优 缺 点 ? ) 

3.15 可 以 如 练习 3.14 那 样 实现 read、write、pread、 pwrite、 fsync、 fdatasync、aio_read、 
aio_write 和 aio_fsync 吗 ? 如 果 可 以 实现 ， 那 么 请 实现 它们 ， 并 说 出 该 方式 有 什么 优点 或 缺点 ? 

3.16 列 出 通过 aio_suspend、 信 和 号、 启动 的 线程 或 者 用 aio_error 轮 询 来 检测 AIO 完 成 的 优 缺 点 。( 需 
要 的 相关 信息 在 第 5 章 和 第 9 章 中 . ) 


第 4 章 终端 /O 


4.1 概述 


终端 1/O 很 复杂 ， 因 此 需要 单独 拿 出 一 章 来 介绍 。 复 杂 之 处 并 不 在 于 一 般 的 终端 /O， 它 其 
至 比 文件 MO 还 要 简单 ， 而 在 于 终端 属性 的 多 种 可 变性 。 本 章 将 讨论 终端 如 何 与 会 话 和 进程 组 
通信 ， 并 讨论 如 何 创建 伪 终 端 ， 该 伪 终 端 能 实现 一 个 进程 控制 其 他 终端 进程 。 

在 UNIX 系 统 中 ， 终 端 IO 将 终端 看 成 是 老式 的 硬 拷贝 电 传 打字 机 ， 该 模型 带 有 大 量 的 能 
产生 可 拍 击 的 打字 盒 , 现在 只 能 在 博物 馆 或 老式 电影 中 看 到 了 。 内 核对 显示 器 (字符 或 图 形 )、 
功能 性 键盘 、 鼠 标 或 其 他 点 击 设备 并 没有 专门 的 支持 ， 一 些 较 新 的 现代 设备 是 靠 调用 标准 设 
备 驱动 程序 的 库 函 数控 制 的 ， 最 著名 的 支持 字符 显示 的 包 是 Curses， 现 在 是 [SUS2002] 的 一 部 
分 。 所 谓 的 UNIX 图 形 用 户 接口 (GUI) 通常 运行 在 X 窗 口 系统 上 ， 也 许 会 用 到 一 个 系统 工具 
包 ， 如 Molif、Qt、KDE 或 者 Gnome。 

因为 本 章 的 大 部 分 内 容 都 与 设备 驱动 程序 有 关 ， 而 与 类 似 文 件 系统 的 内 核 部 分 无 关 ， 所 
以 UNIX 版 本 的 不 同 会 造成 具体 特性 的 很 大 差异 。 有 时 甚至 个 别 的 UNIX 版 本 也 需要 根据 终端 
设备 驱动 程序 而 进行 修改 。 记 住 ， 并 不 是 所 有 的 终端 1O 属 性 都 是 由 UNIX 系 统 本 身 产生 的 。 
随 着 智能 终端 、 局 域 网 络 、 前 端 处 理 器 的 广泛 应 用 ， 在 UNIX 内 核查 找 字 符 流 之 前 ， 以 及 按 其 
要 求 方式 发 送 它 之 后 ， 这 种 字符 流 的 处 理 已 变 得 更 容易 了 。 这 种 前 处 理 和 后 处 理 的 详细 情况 
变化 太 大 ， 无 法 一 一 列举 。 本 书 一 般 只 讨论 终端 1O 的 标准 特性 ， 读 者 可 以 以 此 为 基础 ， 依 据 
系统 手册 来 构建 自己 的 系统 。 


4.2 从 终端 读 取 数 据 
本 节 将 解释 如 何 从 终端 读 取 数据 ， 包 括 在 终端 没有 准备 好 读 取 数据 时 为 何不 阻塞 的 原因 。 


4.2.1 标准 终端 1O 

现在 开始 解释 标准 终端 是 如 何 进行 输入 和 输出 工作 的 ; 也 就 是 说 ， 当 第 一 次 登录 时 和 使 
用 stty 命 令 定制 自己 的 需求 之 前 ， 终 端 是 如 何 工作 的 。 在 接 下 来 的 几 节 中 ， 将 讨论 如 何 使 用 
fctnl 和 tcsetattr 系 统 调用 来 改变 标准 终端 属性 。 

对 于 输入 或 输出 ， 一 般 有 三 种 访问 终端 的 方式 : 

1) 可 以 打开 符号 特殊 文件 /dev/tty 进 行 读 、 写 或 者 读 写 。 这 个 特殊 文件 是 进程 控制 终端 的 
同义词 ( 见 4.3.1 节 )。 

2) 如 果 知 道 特殊 文件 的 实际 名 称 (例如 /dev/tty04) ， 就 可 以 用 名 字 打开 文件 。 但 是 如 果 
仅 想 控制 终端 ， 那 么 使 用 普通 的 名 字 /dev/tty 就 不 好 了 。 在 应 用 程序 中 ， 实 际 名 称 主要 是 用 于 
访问 终端 ， 而 不 是 控制 终端 。 

3) 传统 上 ， 每 个 进程 都 会 继承 三 个 打开 的 文件 描述 符 : 标准 输 入 、 标 准 输出 和 标准 错误 输 
He 通常， 不 论 这 些 文件 描述 符 对 控制 终端 开放 与 否 ， 控 制 终 端 都 可 以 随时 使 用 它们 ， 因 为 如 
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果 这 些 文件 对 普通 文件 或 管道 是 开放 的 ， 那 么 用 户 或 父 进程 就 可 以 决定 重 定向 输入 或 输出 。 

适用 于 终端 的 基本 IO 系统 调用 是 open、read、write 和 close。 调 用 creat 没 有 太 大 
意义 ， 因 为 特殊 文件 必须 是 已 经 存在 的 。1seek 对 终端 也 没有 作用 ， 因 为 没有 文件 偏 移 量 ， 
这 也 意味 着 pread 和 pwrite 也 不 适用 。 

除非 规定 了 0_NONBLOCK 标 志 ， 否 则 必须 等 待 设备 与 终端 建立 连接 之 后 才能 打开 终端 设 
备 ， 对 于 阻塞 在 等 待 用 户 连 接 的 open 进 程 来 说 ， 该 特性 是 很 重要 的 。 然 后 从 open 得 到 返回 
值 ， 接 着 调用 登录 进程 以 便 实 现 用 户 登 录 。 完 成 登录 后 ， 调 用 密码 文件 中 规定 的 用 户 shell， 
用 户 开始 工作 。 

默认 情况 下 ，read 系 统 调用 对 终端 的 作用 方式 与 文件 也 不 一 样 : 它 的 返回 值 不 会 超过 一 
行 输入 ， 在 整 行 输入 准备 好 之 前 也 没有 字符 返回 ， 即 使 在 read 请 求 仅 需要 单个 字符 时 也 是 如 
此 。 这 是 因为 在 用 户 完成 一 行 输入 之 前 ， 不 能 假定 它 是 最 终 形 式 ， 即 用 户 可 能 还 会 修改 或 完 
全 删除 字符 以 修改 或 完全 取消 输入 。read 返 回 的 计数 值 可 以 用 于 确定 实际 已 经 读 取 的 字符 数 。 
(以 上 描述 的 是 规范 的 终端 输入 ， 但 不 能 使 其 无 效 ， 见 4.5.9 节 。) 

可 以 用 以 下 两 种 方式 之 一 结束 一 行 。 最 常用 的 方式 是 ， 换 行 符 就 是 结束 符 。 当 按 下 回 车 
键 时 ， 设 备 驱动 程序 会 将 回 车 符 (八进制 15) 转换 成 一 个 新 行 (八进制 12)。 换 名 话说， 通过 
按 下 Ctrl-d 键 ， 用 户 可 以 产生 一 个 文件 结束 符 (EOF)。 在 这 种 情况 中 ， 虽 然 没有 新 行 结束 符 ， 
但 read 仍 可 读 取 该 行 。 一 种 重要 的 特殊 情况 是 : 如 果 用 户 在 一 行 开始 产生 了 一 个 EOF， 那 么 
read 将 返回 0)， 因 为 EOF 结 束 的 行 是 空 的 。 这 看 起 来 像 是 文件 结尾 ， 这 也 是 为 什么 Ctrl-d 可 以 
作为 文件 结束 “ 符 ” 的 原因 。 

下 面 的 函数 可 以 通过 标准 输入 文件 描述 符 STDIN_FILENO (定义 为 0) 来 读 终端 ， 如 果 
出 现 终止 换行 字符 ， 该 函数 会 删除 它 ， 并 添加 NULL 字 符 ， 将 此 行 变 成 C 字 符 串 。 


bool getln(char *s, ssize_t max, bool *iseof) 
{ 





ssize_t nread; 


switch (nread = read(STDIN_FILENO, s, max - 1)) { 
case -1: 
EC_FAIL 
case 0: 
*iseof = true; 
return true; 
default: 
if (sfnread - 1) == '\n') 
nread--; 
s(nread} = '\0'; 
*iseof = false; 
return true; 
$ 


EC_CLEANUP_BGN 
return false; 

EC_CLEANUP_END 

} 


返回 值 用 于 指示 错误 ， 因 此 第 三 个 参数 指示 的 是 EOF， 如 下 面 这 个 调用 示例 所 示 : 
ec_false( getin(s, sizeof(s), &iseof) ) 


if (iseof) 
printf (*EOF\n"); 
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else 
printf ("Read: %s\n*, s); 


对 于 终端 设备 来 说 ，get1n 是 有 效 的 ， 因 为 该 函数 的 一 次 系统 调用 就 可 以 读 取 整 行 字符 。 
而 且 该 函数 不 必 查询 结束 符 ， 它 仅 读 取 read 返 回 值 。 但 该 函数 不 适用 于 文件 和 管道 ， 因 为 没 
有 使 用 行 限制 符 ， 所 以 read 读 取 的 数据 太 多 。 与 getln 读 取 一 整 行 不 同 的 是 ，read 只 读 取 紧 
接着 的 max-1 个 字符 (假定 出 现 很 多 字符 )。 

一 个 更 普遍 的 get1n 版 本 可 能 会 忽 赂 终端 设备 的 唯一 特性 一 至 多 读 取 一 行 。 它 只 简单 
地 检测 每 个 字符 以 寻找 换行 符 : 


bool getln2(char *s, ssize_t max, bool *iseof) 
{ 

ssize_t n; 

char c; 


n= 0; 
while (true) 
switch (read(STDIN_FILENO, &c, 1)) { 
case -1: 
EC_FAIL 
case 0: 
sin) = '\0'; 
“iseof = true; 
return true; 
default: 
if (c == '\n') { 
sin} = '\0'; 
*iseof = false; 
return true; 
} 
if (n >= max - 1) { 
errno = E2BIG; 
EC_FAIL 
} 
s{nt+] = c; 


} 


EC_CLEANUP_BGN 
return false; 

EC_CLEANUP_END 

} 


该 版 本 将 任何 位 置 键入 的 Ctrl-d 都 当 作 是 表示 EOF， 这 与 get1n 的 功能 是 不 同 的 
(get1ln 只 将 行 开头 的 Ctrl-d 当 作 EOF)。 记 住 ， 除 了 终端 ， 其 他 的 都 没有 Ctrl~d， 文 件 的 结束 
只 是 简单 的 文件 结尾 或 者 是 没有 打开 写 文件 描述 符 的 管道 。 

尽管 getln2 能 正确 地 读 取 终端 、 文 件 和 管道 ， 但 它 读 原 代码 很 慢 ， 因 为 没有 像 2.12 节 所 
说 的 那样 缓 在 输入 。 比 较 容易 的 补救 方式 是 修改 get1n2， 使 其 调用 Bgetc 一 一 它 是 2.12 节 介 
绍 的 BUFIO 包 中 的 一 部 分 。Bopen 已 经 可 以 用 于 打开 终端 特殊 文件 (例如 /dev/tty) 了 。 然 而 
为 了 在 标准 输入 中 使 用 Bgetc， 必 须 添加 调用 Bfdopen (练习 4.2) 的 函数 ， 它 是 从 已 经 打开 
的 文件 描述 符 而 不 是 从 路 径 中 初始 化 BUFIO 指 针 ， 接 着 采用 如 下 方式 从 标准 输入 中 读 取 字符 ， 
无 论 其 是 终端 、 管 道 还 是 文件 : 


ec_null( stin = Bfdopen(STDIN_FILENO, *r*) } 
while ((c = Bgetc(stin)) != -1) 
/* process character */ 
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现在 ， 对 每 种 情况 都 采用 了 尽 可 能 快 的 读 取 方 式 : 对 文件 或 管道 一 次 读 取 一 块 ， 而 对 于 
终端 ， 一 次 读 取 一 行 。 

BUFIO 包 的 实现 不 允许 同一 个 BUFIO 指 针 同 时 指向 输入 和 输出 。 因 此 ， 如 果 向 终端 发 送 
输出 ， 则 必须 使 用 文件 描述 符 STDOUT_FILENO (定义 为 1) 打开 第 二 个 BUFIO。 

UNIX 系 统 标准 1/O 库 提供 了 三 个 预定 义 的 、 已 经 打开 的 访问 终端 的 FILE 指 针 : stdin, 
stdout 和 stderr， 因 此 函数 fdopen 就 像 Bfdopen 一 样 ， 通 常 不 必用 于 终端 调用 。 

因为 不 做 删除 处 理 ， 所 以 向 终端 输出 数据 比 输入 更 直接 。 与 利用 write 输出 许多 字符 一 
样 ， 不 管 换行 符 是 否 出 现 ， 向 终端 输出 ， 字 符 会 立刻 进行 排队 。 

向 终端 打开 的 文件 描述 符 close 不 比 关闭 文件 做 的 事情 多 。 它 只 是 使 文件 描述 符 可 再 次 
重用 ; 但 由 于 文件 描述 符 经 常 是 9、1 或 2， 所 以 不 容易 发 现 明显 的 重用 ， 因 此 不 必 在 程序 结束 
时 关闭 这 些 文件 描述 符 。9 


4.2.2 非 阻塞 输入 


如 前 所 说 ， 当 read 从 终端 读 取 数据 时 ， 如 果 无 法 获得 数据 行 ， 则 read 在 返回 之 前 会 等 
待 数据 。 因 为 进程 在 此 期 间 不 做 任何 事情 ， 所 以 被 称 为 阻 室 (blocking )。 而 对 于 文件 来 说 就 
不 会 出 现 类 似 的 情况 : 或 者 得 到 数据 ， 或 者 到 达 文件 结尾 。 也 许 以 后 会 有 另 一 个 进程 向 该 文 
件 写 人 数据， 但 问题 是 当 执行 read 时 到 底 结尾 在 哪里 。 

open 和 fcnt1 设 置 的 0_NONBLOCK 标 志 可 以 使 读 操作 非 阻塞 。 如 果 得 不 到 数据 行 ， 那 么 
read 会 立刻 返回 值 ~1， 并 将 error 设 置 成 EAGAIN。® 

我 们 经 常 希望 能 随意 地 关闭 和 打开 阻塞 ， 因 此 下 面 将 编写 能 适当 调用 fcnt1 的 函数 
setblock。( 采 用 的 技术 与 3.8.3 节 中 设置 0_APPEND 标 志 时 所 用 的 相同 。 ) 


bool setblock(int fd, bool block) 


t 
int flags; 


ec_negl( flags = fcntl(fd, F_GETFL) ) 
if (block) 

flags &= ~O_NONBLOCK; 
else 

flags |= O_NONBLOCK; 
ec_neg1( fentl(fd, F_SETFL, flags) ) 
return true; 


EC_CLEANUP_BGN 
return false; 

EC_CLEANUP_END 

】 


下 面 是 setblock 的 检测 程序 。 它 关闭 了 阻塞 ， 接 着 在 循环 中 读 取 数 据 行 。 如 果 没 有 数 
据 ， 则 在 继续 运行 之 前 休眠 5 种 钟 。 在 提示 信息 中 包含 了 循环 开始 以 来 的 时 间 ， 使 用 的 是 1.7.1 
节 介 绍 的 time 系 统 调用 。 


static void test_setblock(void) 


O 在 第 6 章 中 ， 当 两 个 进程 与 一 个 管道 连接 时 ， 将 关闭 它们 。 
© 在 一 些 UNIX 版 本 中 ， 有 类 似 的 标志 ， 称 为 0_NDELAY， 如 果 设置 了 该 标志 ， 但 没有 数据 ， 则 xead 的 返回 


值 为 0， 此 值 与 文件 结束 的 返回 值 相 同 。 因 此 最 好 使 用 O_NONBLOCK。 
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HIO 
{ 
char s[100]; 
ssize_t ni 


time_t tstart, 


tnow; 


ec_negl( tstart = time(NULL) ) 
ec_false( setblock(STDIN_FILENO, false) ) 


while (true) { 


ec_negl( tnow = time(NULL) ) 

printf(*Waiting for input (%.0f sec.) ...\n", 
difftime(tnow, tstart)); 

switch(n = read(STDIN_FILENO, s, sizeof(s) - 1)) ( 


case 0: 


printf (*EOF\n"); 


break; 
case -1: 


if (errno == EAGAIN) ( 
sleep (5); 
continue; 


} 
EC_FAIL 
default: 


if (s[n - 1] == 


n-- 
s(n] = 


"NO"; 


nnt) 


printf ("Read \"ts\"\n", s); 
continue; 


) 
break; 
} 


return; 


EC_CLEANUP_BGN 


EC_FLUSH(*test_setblock") 


EC_CLEANUP_END 
} ; 


下 面 是 运行 一 次 的 输出 结果 。 在 键入 “hello” 之 前 等 了 一 会 ， 之 后 在 键入 Ctrl-d 之 前 等 


待 的 时 间 更 长 : 


Waiting for input 
Waiting for input 
Waiting for input 
hello 

Waiting for input 


Read "hello" 
Waiting for input 
Waiting for input 
Waiting for input 
^DEOF 


(0 sec.) ... 
(5 sec.) ss- 


(10 sec. 


(15 sec. 


(15 sec. 
(20 sec. 
(25 sec. 


Jurik 


ET 


) 





) 


休眠 5 秒 的 方法 是 在 频繁 地 执行 read (浪费 CPU 时 间 ) 和 长 时 间 等 待 ( 我 们 不 能 立刻 处 
理 用 户 的 输入 ) 之 间 的 一 个 妥协 。 其 实 ， 可 以 看 到 在 键入 hello 和 程序 最 后 读 取 输入 并 回 送 之 
间 浪 费 了 几 秒 钟 的 时 间 。 因 此 一 般 来 说 ， 关 闭 阻塞 和 在 read/sleep 循 环 中 得 到 输入 是 恩 礁 
的 方法 。 下 一 节 将 介绍 比 这 种 方法 更 好 的 方法 。 

如 上 所 述 ， 当 使 用 open 打 开 终端 特殊 文件 时 也 可 以 设置 0_NONBLOCK 标 志 。 在 这 种 情况 
下 ，o_NONBLOCK 标 志 既 影响 open ， 也 影响 read: 如 果 没 有 建立 连接 ，open 不 等 待 就 返回 。 
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非 阻塞 输入 的 一 个 应 用 是 监控 多 个 终端 。 终 端 设备 可 能 是 通过 终端 端口 与 UNIX 计 算 机 相 
连 的 实验 室 仪器 。 字 符 被 零散 地 发 送 ， 但 需要 将 字符 按 出 现 的 先后 顺序 累积 。 因 为 无 法 预测 
某 个 给 定 的 终端 何 时 会 发 送 字符 ， 所 以 不 能 使 用 阻塞 IO 的 方式 ， 那 样 可 能 会 导致 这 种 结果 : 
忽略 了 有 数据 传送 的 终端 ， 而 等 待 的 却 是 一 个 没有 任何 数据 传送 的 终端 。 然而 使 用 非 阻塞 1/O， 
就 可 以 按 顺 序 轮 询 每 个 终端 ; 如 果 终 端 没有 准备 好 数据 ，read 返 回 -1 (errno 设 置 成 
EAGAIN), ， 接 着 继续 询问 下 一 个 终端 。 如 果 完 全 循环 一 次 后 没有 发 现任 何 已 准备 好 的 数据 ， 


那么 下 次 循环 之 前 先 休眠 1 秒 ， 以 便 不 独占 CPU。 

该 算法 可 以 通过 readany 进 行 示例 。 该 函数 的 前 两 个 参数 分 别 是 : 文件 描述 符 数组 fds 
和 数组 中 的 计数 值 nfds 。 该 函数 直到 这 些 文件 描述 符 其 中 一 个 的 read 返 回 一 个 字符 时 才 返 
回 。 接 着 通过 第 三 个 参数 (whichp) 返回 读 取 字符 的 文件 描述 符 fds 的 下 标 。 字 符 本 身 是 函 
数 的 值 ; 0 是 指 文件 结尾 ; -1 指 错误 .readany 的 调用 程序 假定 以 有 用 的 方式 累积 得 到 的 数 
据 ， 以 便 数 据 日 后 的 处 理 。9 


int readany(int fds{], int nfds, int *whichp) 
{ 

int i; 

unsigned char c; 


for (i = 0; i < nfds; i++) 
setblock(fds[{i], false); /* inefficient to do this every time */ 
i= 0; 
while (true) ( 
if (i >= nfds) { 
sleep(1); 
i= 0; 
} 
c = 0; /* return value for EOF */ 
if (read(fds(i], &c, 1) == -1) { 
if (errno == EAGAIN) { 
ite; 
continue; 
} 
EC_FAIL 
$ 
*whichp = i; 
return c; 


) 


EC_CLEANUP_BGN 

return -1; 
EC_CLEANUP_END 
H 


程序 中 关于 调用 setblock 低 效 的 注释 是 指 ， 实 际 上 不 必 在 每 次 调用 readany 时 都 调用 
它 。 如 果 模 块 较 小 ， 那 么 让 调用 者 对 它 负 责 效率 会 更 高 。 

下 面 是 readany 的 检测 函数 。 它 打开 了 两 个 终端 ， 一 个 是 控制 终端 (运行 在 网 络 其 他 地 
方 的 telnet 应 用 程序 ) /dev/tty， 如 4.2.1 节 的 解释 那样 ， 另 一 个 是 /dev/pts/3， 它 是 显示 器 上 
与 计算 机 直接 相连 的 xterm 窗 口 ， 该 窗口 运行 的 是 SuSE Linux 系 统 。( 使 用 tty 命 令 可 以 发 现 
/dev/pts/3 的 名 字 。) 


日 ”假定 实验 室 仪器 正 输入 带 有 终止 符 的 新 行 。 在 4.5.9 节 ， 将 介绍 如 何不 等 待 行 准备 好 即 可 读 取 数据 。 
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static void readany_test (void) 
{ 
int fas[2] = {-1, -1), which; 
int c; 
bool ok = false; 


ec_negl( fds[0} = open("/dev/tty". O_RDWR) ) 
ec_negl( fds{1} = open(*/dev/pts/3", O_RDWR) ) 


while ((c = readany(fds, 2, &which)) > 0) 
printf(*Got %c from terminal d\n", isprint(c) ? c : 


ec_negl( c ) 


"2", which); 


ok = true; 
EC_CLEANUP 
EC_CLEANUP_BGN 
if (fds[0] != -1) 
(voidjclose(lfdas[0]) 
if (fds{1] != -1) 
(void) close(fds(1]); 
if (tok) 


EC_FLUSH("readany_test1") 
EC_CLEANUP_END 
} 


下 面 是 我 在 控制 终端 上 得 到 的 输出 ， 是 由 printf 函 数 语句 输出 的 : 


$ readany_test 

dog 

Got d from terminal 

Got o from terminal 

Got g from terminal 

Got ? from terminal 
c from terminal 

Got o from terminal 
w 
2 


rrrooooe 


from terminal 
from terminal 1 


Got ? 

下 面 是 执行 过 程 : 首先 ， 紧 跟 控 制 终端 的 回 车 输入 “dog"， 响 应 “dog” 结果 后 接着 显示 了 
4 行 。( 问 号 表示 新 行 。 ) 然后 我 又 在 Linux 计 算 机 上 ， 和 输入 了 “cow” 和 回 车 ， 得 到 的 输出 如 下 : 

cow: command not found 

在 控制 终端 没有 显示 任何 内 容 。 问 题 是 在 xterm 窗 口 正在 运行 一 个 shell 时 ， 由 于 等 待 输 
入 而 阻塞 于 read 状 态 中 。 对 被 废弃 的 终端 来 说 ， 这 样 处 理 是 正常 的 。 两 个 进程 同时 读 同一 个 
终端 ，shell 首 先 得 到 字母 ， 因 此 当然 当 作 命令 解释 。 接 着 又 采用 如 下 方式 重新 实验 : 


$ sleep 10000 
cow 


sleep 命 令 运行 在 前 台 ， 它 使 shell 等 待 了 很 长 时 间 ， 这 次 输入 的 数据 传 给 了 
readany_test 命 邻 ， 它 输出 了 输入 的 最 后 4 行 。 这 说 明 终端 驱动 程序 不 属于 任何 一 个 特殊 
进程 ; 仅仅 因为 打开 它 的 进程 没有 读数 据 ， 并 不 能 说 明 另 一 进程 不 可 以 读数 据 。 

该 检测 程序 的 另 一 个 解释 : 来 自任 何 输入 终端 的 EOF 都 可 以 终止 程序 的 执行 ， 这 也 是 我 
决定 编写 它 的 原因 。 在 实际 的 应 用 中 可 能 需要 做 不 同 的 工作 。 


4.2.3 select 系统 调用 
调用 sleep 在 花费 时 间 方 面 有 两 个 缺点 : 首先 ， 如 以 前 提起 的 ， 在 处 理 输入 的 字符 之 前 
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大 约 要 延迟 1 秒 的 时 间 ， 这 对 于 时 间 性 要 求 很 强 的 应 用 来 说 是 个 问题 。 其 次 ， 在 准备 好 字符 之 
前 ， 我 们 可 能 会 多 次 唤醒 并 执行 其 他 无 用 的 循环 。 函 数 希望 的 最 好 的 方式 也 许 是 : “在 任意 一 
个 文件 描述 符 准备 好 字符 前 ， 让 我 休眠 吧 .” 如 果 这 种 情况 真能 实现 ， 那 么 我 们 甚至 不 必 使 
read 非 阻塞 ， 因 为 若 数据 能 准备 好 的 话 ，read 就 不 会 阻塞 了 。 

我 们 要 找 的 这 个 系统 调用 叫 作 select ( 稍 后 我 们 就 能 接触 到 相似 的 pselect ): 


select 一 一 等 待 MO 准 备 好 
#include <sys/select.h> 


int select( 
int nfds, /* highest fd + 1 */ 
fd_set *readset, /* read set or NULL */ 
fd_set *writeset, /* write set or NULL */ 
fd_set *errorset, /* error set or NULL */ 
struct timeval *timeout /* time-out (microseconds) or NULL */ 


) 
/* Returns number of bits set or -1 on error (sets errno) */ 


pselect 一 一 等 待 JO 准 备 好 
#include <sys/select .h> 


int pselect ( 
int nfds, /* highest fd + 1 */ 
fd_set *readset, /* read set or NULL */ 
fd_set *writeset, /* write set or NULL */ 
fd_set *errorset, /* error set or NULL */ 
const struct timespec *timeout, /* time-out (nanoseconds) or NULL */ 
const sigset_t *sigmask /* signal mask */ 


Ve 
/* Returns number of bits set or -1 on error (sets errno) */ 





与 readany 不 同 ， 它 传递 的 是 文件 描述 符 的 数组 ， 用 select 可 以 设置 想 要 检测 的 每 个 
文件 描述 符 的 fa_set 参 数 中 某 个 的 位 S。 处 理 集合 的 宏 有 4 个 : 
FD_ZERO 一 一 清除 整个 fd_set 
#include <sys/select.h> 


void FD_ZERO( 
fd_set *fdset /* fa_sec to clear */ 
) 


FD_SET 一 一 设置 fd_set 文 件 描述 符 


#include <sys/select.h> 


void FD_SET( 
int fd, /* file descriptor to set */ 
fd_set *fdset /* fd_set */ 


de 


FD_CLR 一 一 清除 fd_set 文 件 描述 符 
#include <sys/select.h> 
void FD_CLR( 


int fd, /* file descriptor to clear */ 
fd_set *fdset /* fd_set */ 





ve 


O 虽然 通常 是 位 ， 但 不 是 必须 是 位 。 这 里 使 用 这 个 术语 想 表达 的 只 是 模型 ， 不 是 实现 。 
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FD_ISSET 一 一 测试 fd_set 文 件 描述 符 


#include <sys/select.h> 
int FD_ISSET( 
int fd, /* file descriptor to test */ 
fd_set *fdset /* fd_set */ 


) 
/* Returns 1 if set or 0 if clear (no error return) */ 





根据 所 等 待 的 内 容 ( 读 、 写 或 者 错误 ) 的 不 同 ， 可 以 用 0、1、2 或 者 3 设置 select。 当 所 
有 fd_set 参 数 都 为 NULL 时 ，select 就 会 进入 阻塞 ， 直 到 超过 设 定时 间或 者 被 信号 中 断 ; 


这 不 是 特别 有 用 的 。 
可 以 使 用 FD_ZERO 初 始 化 集合 ， 接 着 按照 如 下 方式 使 用 FD_SET 为 每 个 文件 描述 符 设置 


感 兴趣 的 位 : 
fd_set set; 


FD_ZERO(&set) ; 
FD_SET(fdl, &set); 
FD_SET(fd2, &set); 


接着 调用 select ， 此 时 它 会 阻塞 (即使 设置 了 o_NONBLOCK )， 直 到 一 个 或 多 个 文件 描 
述 符 准 备 好 读 或 写 ， 或 者 出 现 错误 。 它 会 修改 所 传递 给 它 的 集合 ， 这 次 为 每 个 准备 好 的 文件 
描述 符 设置 一 个 位 ， 必 须 使 用 如 下 代码 检测 每 一 个 文件 描述 符 ， 看 是 否 设置 了 位 : 


if (FD_ISSET(fdl, &set)) ( 
/* do something with fdl, depending on which fd_set */ 


) 

无 法 得 到 文件 描述 符 的 列表 ; 必须 分 别 询问 每 个 文件 描述 符 。 通 过 检测 位 的 值 可 以 知道 
文件 描述 符 准备 做 什么 。 因此， 即使 输入 集合 是 相同 的 ， 也 不 能 让 多 个 参数 使 用 相同 的 集合 ， 
为 了 知道 文件 描述 符 想 做 什么 ， 需要 不 同 的 输出 集合 。 

即使 对 应 文件 描述 符 已 经 准备 好 了 ， 只 有 在 输入 设置 了 某 位 时 ， 输 出 时 才 必 须 设置 该 位 。 
也 就 是 说 ， 只 能 得 到 所 问 问题 的 答案 。 

select 运 行 成 功 ， 则 返回 所 有 集合 中 的 位 集合 的 总 数 ， 除 了 用 于 调用 FD_ISSET (可 能 在 
循环 中 ) 时 对 遇 到 的 文件 描述 符 数 进行 双 检查 以 外 ， 该 数 几乎 没什么 用 。 

第 一 个 参数 nfds 不 是 输入 位 集合 的 个 数 。 它 是 select 应 该 考虑 的 集合 的 长 度 。 也 就 是 
说 ， 对 每 个 输入 集合 ， 设 置 的 所 有 位 都 必须 在 编号 为 0 到 nfds~1 的 文件 描述 符 范围 内 ， 也 包 
含 0O 和 nfds~1。 通 常 ， 可 以 计算 出 最 大 文件 描述 符 个 数 ， 然 后 加 1。 如 果 不 想 那 么 人 做， 那么 
可 以 使 用 常量 FD_SETSIZE， 它 是 一 个 集合 所 能 拥有 的 最 大 文件 描述 符 个 数 。 但 是 因为 该 数 
一 般 很 大 (比如 为 1024)， 所 以 对 于 select 来 讲 足够 用 了 。 

select 的 最 后 一 个 参数 是 超时 间 间 隔 ， 使 用 了 1.7.1 节 解释 的 timeval 结 构 。 在 这 段 时 
间 间 隔 中 ， 如 果 没 有 任何 事情 发 生 ， 那 么 select 会 返回 值 0 一 没有 错误 ， 也 没有 位 集合 。 
注意 ，select 可 能 会 修改 该 结构 ， 因 此 再 次 调用 select 之 前 应 重新 设置 timeval。 

如 果 timeout 为 NULL， 那 么 就 没有 超时 ; 它 等 同 于 无 限时 间 间 隔 。 如 果 不 是 NULL， 而 
是 时 间 为 0， 那 么 select 执 行 检测 后 会 立即 返回 ; 可 以 通过 这 种 方式 实现 轮 询 ， 代 替 等 待 。 
当 程序 有 其 他 工作 要 做 时 ， 这 种 方式 是 有 意义 的 : 因为 程序 正在 高 效 使 用 CPU， 所 以 在 进行 
其 他 工作 时 ， 可 以 不 断 地 进行 轮 询 ; 之 后 ， 当 工作 完成 时 ， 进 行 阻塞 (时 间 不 为 0， 或 者 
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timeout 为 NULL )， 除 了 等 待 不 做 其 他 任何 工作 。 
下 面 是 3 种 没有 正确 使 用 select 的 方式 : 
“将 第 一 个 参数 nfds 设 置 成 编号 最 大 的 文件 描述 符 ， 而 不 是 该 数 加 1 。 
。 再 次 调用 select 时 ， 使 用 了 与 更 改过 的 集合 相同 的 集合 ， 而 没有 意识 到 返回 值 中 仅 对 
准备 好 的 文件 描述 符 进行 了 设置 。 每 次 调用 前 ， 都 必须 重新 初始 化 输入 集合 。 
， 没 有 理解 “准备 好 ”的 含义 。 它 不 是 指数 据 准备 好 ,而 仅 是 指 清除 0_NONBLOCK 设 置 时 ， 
read 或 write 不 阻塞 。 返回 计数 为 0 (EOF)、 错 误 或 者 数据 都 是 可 能 的 。 文 件 描述 符 
是 否 设置 了 oO_NONBLOCK 无 关 紧 要 ， 该 设置 仅 意味 着 文件 描述 符 决 不 会 阻塞 ; 仅 在 清除 
0_NONBLOCK 设 置 后 仍 不 阻塞 的 假设 情况 下 ，select 才 认为 是 已 经 准备 好 了 。 
下 面 是 更 好 的 readany 实 现 : 


int readany2(int fds[{], int nfds, int *whichp) 
{ 

fd_set set_read; 

int i, maxfd = 0; 

unsigned char c; 


FD_ZERO(&set_read) ; 
for (i = 0; i < nfds; i++) ( 
FD_SET(fds[(i], &set_read) ; 
if (fds[il > maxfd) 
maxfd = fds[i]; 
} 
ec_negl( select (maxtd + 1, &set_read, NULL, NULL, NULL) ) 
for (i = 0; i < nfds; i++) ( 
if (FD_ISSET(fds{ij, &set_read)) { 
c = 0; /* return value for EOF */ 
ec_negl( read(fds(i}, &c, 1) ) 
*whichp = i; 
return c; 
s} 
} 


/* "impossible" to get here */ 
errno = 0; 
EC_FAIL 


EC_CLEANUP_BGN 

return -1; 
EC_CLEANUP_END 
} 


该 版 本 的 效率 是 很 高 的 。read 保 持 阻 塞 ， 没 有 轮 询 循环 ， 也 没有 休眠 。 所 有 的 等 待 都 在 
select 中 ， 当 它 返 回 时 ， 我 们 可 以 读 字符 ， 并 立即 带 有 字符 返回 。 

如 果 碰 巧 另 一 个 线程 和 阻塞 read 读 取 的 是 同一 个 文件 描述 符 ， 那 么 在 代码 执行 到 read 
之 前 ，select 原 来 说 的 已 经 准备 好 的 数据 可 能 已 经 不 见 了 ， 这 意味 着 将 永远 阻塞 。 修 补 这 个 
漏洞 的 最 容易 的 方法 就 是 使 read 非 阻塞 ， 当 返回 值 为 -1 并 设置 erzno 为 EAGAIN 时 ， 循 环 返 
回 到 select。 

担心 终端 的 write 阻塞 是 不 正常 的 。 即 使 由 于 驱动 程序 的 缓冲 区 已 满 而 出 现 这 种 情况 ， 
也 可 以 很 快 地 清空 缓冲 区 。 通 常 对 其 他 输出 〈 如 管道 或 套 接 字 ) 而 言 ， 出 现 写 阻塞 是 严重 的 ， 
在 以 后 的 章节 中 会 介绍 这 些 内 容 。 特 别 是 ， 在 8.1.3 节 给 出 了 以 典型 方式 使 用 select 的 例子 ， 
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该 方式 使 用 了 接受 多 个 客户 连接 的 套 接 字 。 

如 果 设 置 了 读 集合 位 ， 则 可 以 读 ; 如 果 设 置 了 写 集合 位 ， 则 可 以 写 。 如 果 设 置 了 错误 集 
合 位 ， 那 么 可 以 做 什么 呢 ? 答案 依赖 于 文件 描述 符 为 何 打 开 。 对 套 接 字 ， 错 误 比 “ 异 常情 况 ” 
要 好 ， 异 常 将 转 到 已 经 准备 好 的 带 外 数据 ( 见 8.7 节 )。 对 本 节 讲 到 的 终端 ， 没 有 标准 的 异常 
情况 或 错误 情况 ， 尽 管 对 执行 程序 来 说 出 现 非 标准 是 可 能 的 ， 但 必须 查看 对 应 系统 的 
文档 。 

Pselect 是 select 的 一 个 很 有 魔力 的 变 体 ; 其 与 select 之 间 的 区 别 是 : 

。 对 pselect 来 说 ， 超 时 是 timespec 结 构 的 ， 以 纳 秒 为 单位 ， 不 能 修改 的 。 

“在 调用 pselect 时 需 设置 第 6 个 参数 一 一 信号 掩 码 ( 见 9.1.5 节 )， 并 在 返回 时 恢复 旧 的 掩 
码 值 。 鉴 于 第 9 章 说 明 的 原因 ， 如 果 期 望 由 信号 来 中 断 程序 运行 ， 那 么 最 好 使 用 
pselect。 而 不 是 select。( 如 果 sigmask 参 数 为 NULL， 那 么 就 信号 而 言 ，pselect 
和 select 是 相同 的 。) 

Pselect 是 SUS 版 本 3 的 新 功能 ， 因 为 刚刚 出 现 ， 可 能 有 的 系统 还 没有 它 。 


4.2.4 poll 系 统 调用 


poll 一 一 等 JO 准 备 好 


#include <poll.h> 


int poll( 
struct pollfd fdinfo(], /* info on file descriptors to be tested */ 
nfds_t nfds, /* number of elements in fdinfo array */ 
int timeout /* time-out (milliseconds) */ 


) 
/* Returns number of ready file descriptors or -1 on error (sets errno) */ 


struct pollfd 一 一 poll 的 结构 


struct pollfd { 
int fd; /* file descriptor */ 
short events; /* event flags (see table, below) */ 

py FOE revents, /* returned event flags (see table, below) */ 





po1l1 最 初 是 为 在 AT&T 系 统 V( 见 4.9 节 ) 上 使 用 流 IHO 设 备 而 设计 的 ， 但 是 ， 与 select 一 
样 ， 它 也 可 以 用 于 打开 任何 文件 类 型 的 文件 描述 符 。 尽 管 它 的 名 字 pol1 像 select ,但 它 既 
可 以 用 于 等 待 ， 也 可 以 用 于 轮 询 。 除 了 Darwin 6.6 之 外 ， 大 部 分 系统 有 pol1。 

使 用 select 可 以 对 文件 描述 符 设置 位 掩 码 ， 而 使 用 poll 可 以 设置 pol1fd 结 构 ， 该 结 
构 包括 了 你 想 了 解 的 每 个 文件 描述 符 内 容 。 对 每 一 个 文件 描述 符 ， 在 events 字 段 中 为 每 一 个 
需 被 监控 的 事件 (例如 ， 读 、 写 ) 设置 标志 。 当 pol1 返 回 时 ， 每 个 结构 的 revents 字 段 中 
都 包含 指示 哪些 事件 发 生 了 的 位 集合 。 因 此 ， 与 select 不 同 ， 该 调用 不 干扰 输入 ， 所 以 你 可 
以 重用 输入 。 

如 果 想 试图 用 很 大 的 值 检测 文件 描述 符 ， 那 么 pol1 比 select 的 效率 高 。 为 了 说 明 原 因 ， 
假定 你 想 要 检测 的 文件 描述 符 是 1000。select 需 要 检测 所 有 从 0 到 1000 的 位 ， 但 你 却 可 以 建立 
只 有 一 个 元 素 的 pol1 数 组 。select 的 另 一 个 问题 是 ， 它 的 集合 大 小 是 根据 潜在 的 文件 描述 符 
的 数量 设 定 的 ， 一 些 内 核 被 配置 以 允许 很 大 的 数 。 具 有 10 000 个 位 的 位 掩 码 的 效率 是 相当 低 的 。 
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与 select 和 pselect 不 同 的 是 ,timeout 参 数 以 毫秒 为 单位 ， 而 不 是 timeval1 或 
timespec 结 构 。 如 果 timeout 是 -1，Pol1 会 阻塞 ， 直 到 至 少 有 一 个 要 求 检测 的 事件 发 生 
在 文件 描述 符 上 。 如 果 timeout 是 0， 则 与 select 和 pselect 相 同 ，Pol1 仅 检测 文件 描述 
符 ， 并 返回 ， 返 回 值 可 能 为 0， 那 表示 没有 事件 发 生 。 如 果 timeout 是 正 数 ，Pol1 将 顶 多 阻 
塞 这 么 长 时 间 。( 因此 ， 与 select 和 pselect 相 同 ， 0 和正 数 这 两 种 情形 实际 上 是 相同 的 。) 

表 4-1 列 出 了 pol1 的 事件 标志 。 为 了 弄 清 这 些 标志 的 意思 ， 需 要 知道 Po11l 在 “普通 ” 数 
据 、“ 优 先 级 ”数据 和 “高 优先 级 ”数据 之 间 的 区 别 。 根 据 文件 描述 符 打 开 的 目的 不 同 ， 这 些 
术语 的 含义 是 不 同 的 。 

表 4-1 poll 系 统 调用 的 事件 标志 





be 志 & x 
POLLRDNORM 准备 读 普通 数据 
POLLRDBAND 准备 读 优先 级 数据 
POLLIN” 与 POLLRDNORM | POLLRDBAND 相 同 
POLLPRI* 准备 读 高 优先 级 数据 
POLLWRNORM 维 备 写 普通 数据 
POLLOUT 与 POLLWRNORM 相 同 
POLLWRBAND 可 以 写 优先 级 数据 
POLLERR 出 现 UO 错 误 ; 仅 在 revents 中 设置 ( 即 不 在 输入 中 设置 》 
POLLHUP” 断 开 设备 (不 再 可 写 ， 但 可 读 ) ; 仅 在 revents 中 设置 





POLLNVAL’ 无 效 的 文件 描述 符 ; 仅 在 revents 中 设置 

“大 部 分 是 用 于 非 数据 流 ; 通常 PBOLLPRI 仅 用 于 笋 接 字 。 

除了 非 正 常情 况 ， 可 以 认为 POLLIN|POLLPRI 与 select 的 读 是 等 价 的 ， 
POLLOUT | POLLWRBAND 与 select 的 写 操作 是 等 价 的 。 注 意 ， 使 用 poll 时 ， 不 必 特 意 询问 
异常 情况 一 无 论 输入 标志 是 什么 ， 如 果 异 常情 况 要 求 设置 表 中 的 最 后 3 个 标志 ， 那 么 就 可 以 
设置 它们 。 

如 果 已 经 创建 了 pol1fd 数 组 ， 但 却 想 禁 止 它 对 文件 描述 符 进行 检测 ， 那 么 可 以 通过 将 
fd 字段 设置 为 -1 来 实现 。 

下 面 是 使 用 pol1 实 现 的 readany (来 自 4.2.2 节 )。(4.2.3 节 已 经 有 了 一 个 使 用 select 实 
现 的 版 本 。) 


#define MAXFDS 100 


int readany3(int fds[], int nfds, int *whichp) 
t 
struct pollfd fdinfo[MAXFDS] = { { 0 } }; 
int i; 


unsigned char c; 


if (nfds > MAXFDS) { 
errno = E2BIG; 
EC_FAIL 

} 

for (i = 0; i < nfds; i++) { 
fdinfo[i].fa = fds[i]; 
fdinfo[i].events = POLLIN | POLLPRI; 
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} 
ec_negl( poll(fdinfo, nfds, -1) ) 
for (i = 0; i < nfds; i++) { 
if (fdinfo[i].revents & (POLLIN | POLLPRI)) { 
c = 0; /* return value for EOF */ 
ec_negl( read(fdinfoli].fd, &c, 1) ) 
*whichp = i; 
return c; 
} 
} 
/* "impossible" to get here */ 
errno = 0; 
EC_FAIL 


EC_CLEANUP_BGN 
EC_CLEANUP_END 
) 

对 readany3 的 解释 如 下 : 

“将 结构 全 都 初始 化 为 0 比较 好 ， 这 是 在 fdinfo 数 组 的 定义 中 进行 的 工作 ， 以 防 实现 定义 
了 其 他 我 们 不 了 解 的 字段 。 同 样 ， 我 们 以 前 在 结构 上 必须 使 用 调试 程序 ， 对 没有 明确 初 
始 化 的 字段 (例如 revents )， 将 字段 定义 为 0， 而 不 采用 无 用 数据 会 使 显示 信息 的 可 
读 性 更 好 。 

“程序 仅 能 处 理 100 个 文件 描述 符 。 通 过 改变 此 值 来 实现 动态 分 配 数组 ， 对 其 进行 改进 将 
会 很 容易 。 

* 严格 地 说 ， 对 revents 进 行 检测 时 假设 标志 使 用 的 是 不 同 的 位 ，SUS 中 似乎 并 没有 这 么 
说 ,但 对 poll 来 说 这 是 个 安全 的 假设 。 

。 我 们 一 般 不 检 油 POLLERR、POLLHUP 或 者 POLLNVAL 标 志 ， 但 是 有 时 应 该 检测 。 

"在 实际 的 应 用 中 ， 可 能 不 需要 对 每 个 调用 都 设置 po11fd 结 构 的 数组 ， 因 为 文件 描述 符 
并 不 经 常 改变 该 结构 。 

。 如 果 另 一 个 线程 正在 读 相同 的 文件 描述 符 ， 阻 塞 read 将 是 个 问题 。select 例 子 中 的 解 
决 方式 ( 见 4.2.3 节 ) 也 可 以 用 在 这 里 。 


4.2.5 测试 和 读 单个 输入 数据 


在 4.2.2 节 中 ,给 出 了 使 用 select 和 Pol1 处 理 多 个 输入 数据 的 例子 。 有 时 尽管 只 有 一 个 
数据 ， 但 是 在 没有 读 取 它 的 情况 下 也 需要 知道 字符 是 否 已 经 准备 好 了 ; 需要 把 检测 数据 操作 
与 读 取 数据 操作 分 开 。 通 过 把 超时 时 间 设 置 为 %， 可 以 使 用 select 或 者 pol1 将 它们 分 开 。 但 
是 ， 如 果 只 有 一 个 输入 ， 那 么 在 设置 了 o_NONBLOCK 标 志 的 情况 下 ， 和 单独 使 用 read 几 乎 一 
样 简单 。 使 用 两 个 函数 可 以 完成 这 个 工作 ， 用 cready 检 测字 符 是 否 已 经 准备 好 ， 用 cget 读 
取 数 据 。 

使 用 cready 的 麻烦 是 ， 当 字符 准备 好 时 ， 读 取 它 的 是 read， 但 我 们 想 让 cget 读 取 它 。 
简单 的 解决 办 法 是 把 先前 读 入 的 数据 放 到 缓冲 区 中 ， 接 着 cget 可 以 先 在 缓冲 区 中 查找 。 如 果 
字符 在 缓冲 区 中 ， 就 返回 该 字符 ; 否则 ， 打 开 阻塞 ， 并 调用 read。 在 下 面 的 cready 和 cget 
的 实现 中 使 用 了 以 上 方案 : 


#define EMPTY '\0' 
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static unsigned char cbuf = EMPTY; 


typedef enum {CR_READY, CR_NOTREADY, CR_EOF) CR_STATUS; 


bool cready(CR_STATUS *statusp) 
a 





if (cbuf != EMPTY) { 
*statusp = CR_READY; 
return true; 
t 
setblock(STDIN_FILENO, false); 
switch (read(STDIN_FILENO, &cbuf, 1)) { 
case - 
if (errno == EAGAIN) { 
*statusp = CR_NOTREADY; 
return true; 





) 
EC_FAIL 
case 0: 
“statusp = CR_EOF; 
return true; 
case 1: 
return true; 
default: /* "impossible" case */ 
errno = 0; 
EC_FAIL 


EC_CLEANUP_BGN 
return false; 

EC_CLEANUP_END 

) 


bool eget (CR_STATUS *statusp, int *cp) 
{ 
if (cbuf EMPTY) ( 
*cp = cbuf; 
cbuf = EMPTY; 
*statusp = CR_READY; 
return true; 





} 
setblock(0, true); 
switch (read(STDIN_FILENO, cp, 1)) { 
case -1: 

EC_FAIL 
case 





‘ep = 0; 
*statusp = CR_EOF; 
return true; 

case 1: 
‘*statusp = CR_READY; 
return true; 


default: /* "impossible" case */ 
errno = 0; 
EC_FAIL 


EC_CLEANUP_BGN 
return false; 

EC_CLEANUP_END 

} 
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当 操作 成 功 时 ， 两 个 函数 都 返回 true ， 错 误 时 返回 false。 参 数 statusp 给 出 了 
cready 的 结果 : CR_READY、CR_NOTREADY 或 者 CR_EOF。 对 cget 来 说 ， 有 可 能 取 的 值 是 
CR_RERADY 和 CR_EOF 。 

这 里 我 们 预先 占有 NUL 字 节 作 为 空 缓冲 区 指示 符 (EMPTY)， 它 意味 着 将 忽略 cready 读 
取 的 NUL 字 节 。 如 果 这 是 不 允许 的 ， 那 么 单个 bool 变 量 也 可 以 用 于 表示 空 缓冲 区 。 

注意 cready 和 cget 在 阻塞 输入 和 非 阻塞 输入 之 间 来 回 移动 的 方式 。 因 为 只 读 取 了 一 个 
输入 流 ， 所 以 当 检测 字符 是 否 可 用 时 没有 必要 停留 在 非 阻塞 状态 ， 和 在 4.2.2 节 中 第 一 个 低 效 
的 readany 版 本 中 必须 做 的 一 样 。 返 回 到 阻塞 状态 ， 并 调用 read， 毕 竟 等 待 字符 是 阻塞 的 
意思 。 

当 程序 有 一 些 可 随意 处 理 的 工作 时 ，cready 和 cget 是 最 有 用 的 ， 只 要 字符 准备 好 了 ， 
随意 的 工作 就 可 暂停 。 使 用 Curses 的 程序 是 较 好 的 示例 (4.8 节 )。Curses 工 作 的 方式 是 ， 所 有 
的 屏幕 输出 都 保留 在 缓冲 区 ， 直 到 调用 refresh 将 缓存 的 数据 发 送 到 显示 器 上 。 这 个 过 程 很 
费时 ， 因 为 refresh 需 要 比较 屏幕 当前 的 内 容 与 新 图 像 的 内 容 ， 以 便 最 小 化 传送 的 字符 数 。 
速度 快 的 打字 员 容 易 超 过 更 新 的 时 间 ， 尤 其 在 屏幕 需要 对 每 一 个 键盘 敲 击 都 更 新 时 ， 因 为 必 
须 使 用 屏幕 编辑 程序 。 但 是 如 果 输 入 没 在 等 待 ， 那 么 简洁 的 解决 办 法 是 从 输入 例 行 程序 中 调 
用 refresh。 如 果 输 入 正在 等 待 ， 那 么 用 户 显 然 在 屏幕 没有 更 新 之 前 就 已 经 打字 了 ， 因 此 忽 
略 了 屏幕 更 新 。 只 有 等 下 次 执行 输入 例 行 程序 时 才能 更 新 屏幕 ， 除 非 有 一 个 字符 也 在 等 待 。 
在 用 户 停止 键入 后 ， 屏 荐 将 成 为 当前 状态 ， 另 一 方面 ， 如 果 程 序 处 理 字符 的 速度 比 打字 员 键 
入 的 速度 快 ， 那 么 屏幕 会 随 着 每 次 的 击 键 而 更 新 。 

看 起 来 很 复杂 ， 但 是 使 用 前 面 开发 的 函数 ， 仅 需 几 行 代码 就 能 实现 : 


ec_false( cready(&status) ) 

if (status == CR_NOTREADY) 
refresh(); 

ec_false( cget(&status, &c) ) 


4.3 会 话 和 进程 组 (作业 ) 
本 节 将 讨论 会 话 和 进程 组 (也 称 为 作业 )， 这 些 主要 对 shell 有 用 。 


4.3.1 术语 

当 用 户 登 录 时 ， 就 会 建立 一 个 新 的 会 话 ， 它 包含 一 个 新 进程 组 ， 并 且 该 进程 组 包含 一 个 
运行 登录 shell 的 单个 进程 。 该 进程 是 进程 组 头 (process-group leader)， 它 的 进程 ID (例如 
73056) 是 进程 组 ID 。 该 进程 也 是 会 话 头 (session leader) ; 进程 ID 也 是 会 话 ID。9 
用 户 登 录 的 终端 会 成 为 会 话 的 控制 终端 。 会 话 头 也 是 控制 进程 。 这 一 层 关系 显示 在 了 图 4-1 的 
右 半 部 分 ， 进 程 组 的 标识 是 FG， 即 前 台 。 

如 果 shell 允 许 作 业 控 制 ， 那 么 命令 或 者 命令 管道 可 以 在 后 台 运行 ， 像 这 样 : 

$ du -a | grep tmp >out.tmps 


这 样 形成 了 一 个 新 进程 组 ， 它 里 面 有 两 个 进程 ， 如 图 4-1 左 半 部 分 所 示 。 后 台 的 进程 组 标识 为 


O 许多 标准 使 用 短语 “会 话 头 的 进程 组 ID" ， 但 我 更 喜欢 只 把 它 称 为 会 话 ID- 
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BG。 这 两 个 新 进程 中 的 一 个 是 这 个 新 进程 组 的 头 。 





* 进程 组 头 十 会 话 头 
图 4-1 会 话 、 进 程 组 、 进 程 和 控制 终端 


两 个 进程 组 (73056 和 73381) 在 同一 个 会 话 中 ， 并 且 有 同样 的 控制 终端 。 用 作业 控制 可 
以 为 每 个 命令 行 创建 一 个 新 进程 组 ， 每 个 这 样 的 进程 组 也 称 为 作业 。 

仅仅 是 因为 进程 组 运行 在 后 台 ， 而 不 是 说 标准 文件 描述 符 不 能 从 终端 来 回 定 向 。 在 前 面 
的 管道 例子 中 ，du 的 标准 输出 是 通过 管道 连接 到 grep 的 标准 输入 中 的 ，grep 的 标准 输出 重 
定向 到 文件 ， 但 是 那 是 用 户 那样 特别 设置 的 ， 而 不 是 因为 运行 在 后 台 上 。 

作业 控制 是 指 ， 如 果 某 些 信号 从 控制 终端 产生 ， 例 如 中 断 (SIGINT)、 终 止 (STGQUIT) 
或 者 挂 起 (SIGTSTP)， 这 些 仅 发 送 到 前 台 进程 组 ， 而 不 理 任何 后 台 进 程 组 . “控制 ”的 含义 
是 指 ， 用 户 可 以 执行 shell 命 令 ， 以 实现 在 前 台 和 后 台 之 间 来 回 移动 进程 组 (作业 )。 通 常 ， 如 
果 进 程 组 正在 前 台 运 行 ， 那 么 可 用 Ctrl-z 向 其 发 送 一 个 SIGTSTP 信 和 号， 这 样 shell 命 令 就 可 以 
将 该 进程 组 移动 到 后 台 ， 而 将 某 个 后 台 进 程 组 移动 到 前 台 。 或 者 使 用 shell 命 令 fg 将 特定 的 后 
台 进程 组 移动 到 前 台 ， 同 时 也 将 原来 的 前 台 进 程 组 发 送 到 后 台 。 

如 果 不 能 激活 作业 控制 ， 那 么 管道 例子 中 的 两 个 新 进程 (正在 运行 的 du 和 grep) 就 不 会 
运行 在 它们 各 自 的 进程 组 中 ， 而 是 与 第 一 个 进程 (shell) 一 起 运行 在 73056 进 程 组 中 ， 如 图 4-2 
所 示 。du 和 grep 进 程 仍然 运行 在 后 台 ， 这 意味 着 该 shell 没 有 等 待 这 两 个 进程 完成 。 因 为 只 有 
一 个 进程 组 ， 所 以 无 法 在 前 台 和 后 台 之 间 移动 进程 组 ， 控 制 终端 产生 的 任何 信号 都 会 进入 会 
话 中 的 唯一 进程 组 的 所 有 进程 。 在 终端 键入 Ctrl-c 将 向 所 有 三 个 进程 发 送 SIGINT， 包 含 两 个 
后 台 进程 ， 并 且 ， 除 非 这 些 进程 已 经 设置 了 放弃 或 忽略 该 信号 ， 否 则 该 信号 将 结束 这 些 进程 ， 
这 是 这 个 特殊 信号 的 默认 动作 。( 第 9 章 对 信号 将 有 更 多 的 介绍 . ) 


会 话 73056 





* 进程 组 头 + 会 话 头 
图 4-2 没有 作业 控制 ， 每 个 会 话 只 有 一 个 进程 
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无 论 有 无 作业 控制 ， 当 控制 终端 挂 起 或 者 断 开 连 接 时 ，SIGHUP 信 号 都 会 被 发 送 给 控制 进 
程 ， 默 认 情况 下 该 信号 终止 控制 进程 。 对 于 典型 会 话 ， 该 信号 将 终止 登录 shell， 并 注销 该 用 
户 。 控 制 终端 将 不 再 是 会 话 的 控制 终端 ， 因 此 会 话 中 将 没有 控制 终端 。 任 何 标准 都 没有 规定 ， 
会 话 中 的 其 他 进程 是 否 可 以 继续 访问 该 终端 ， 但 大 多 数 执行 程序 可 能 都 会 禁止 这 样 的 访问 ， 
例如 通过 从 read 或 write 返回 错误 。 

然而 ， 一 旦 由 于 某 种 原因 控制 进程 终止 (不 是 仅 接收 了 SIGHUP )， 前 台 进程 组 中 的 每 个 
进程 (或 者 仅 一 个 ) 都 会 得 到 SIGHUP， 默认 情况 下 该 信号 会 终止 这 些 进程 。 除 非 已 经 安排 捕 
获 或 忽略 该 信号 ， 否 则 这 些 进程 将 无 法 访问 前 面 的 控制 终端 。 

当 后 台中 的 进程 组 企图 访问 控制 终端 时 会 发 生 什么 问题 呢 ? 不 管控 制 进程 是 否 在 运行 ， 基 
本 原则 是 后 台中 的 进程 企图 从 控制 终端 读数 据 时 都 将 被 发 送 给 一 个 SIGTTIN 信 号 ， 任 何 向 控 
制 终端 写 数据 的 企图 都 将 被 发 送 给 一 个 STGTToU 信 号 。 这 里 的 “ 写 ” 也 指使 用 终端 控制 系统 
调用 一 tcsetattr、tcdrain、tcflow、tcflush 和 tcsendbreak ( 见 4.5 节 和 4.6 节 )。 

这 些 信 号 的 默认 行为 是 挂 起 进程 ， 这 个 意义 很 大 : 需要 访问 控制 终端 的 后 台 进 程 将 停止 
运行 ， 当 你 准备 与 这 些 进程 交互 时 ， 你 可 以 再 将 这 些 进程 移动 到 前 台 。 

除 这 个 基本 原则 之 外 的 例外 情况 : 

， 后 台 进 程 企图 用 忽略 的 或 者 阻塞 的 SIGTTIN 信 号 进行 读 操作 ， 以 替代 从 read 得 到 EIO 

错误 。 

* 孤 立 的 后 台 进程 (进程 组 头 已 经 终止 的 进程 ) 也 会 从 read 得 到 EIO 错 误 。 

。 如 果 清 除了 TOSTOP 终 止 属性 ( 见 4.5.6 节 )， 也 允许 进程 进行 写 操作 。 

， 如 果 设置 了 TOSTOP， 但 忽略 或 阻塞 了 SIGTTOU 信 号 ， 也 允许 进程 进行 写 操作 。 

， 如 果 设 置 了 TOSTOP， 孤 立 的 后 台 进程 会 从 write 得 到 EIO 错 误 。 

因此 ， 这 些 规则 概括 如 下 : 任何 情况 下 ， 后 台 进 程 都 不 能 读 控制 终端 ， 后 台 进 程 将 得 到 错 
误 或 者 被 停止 。 如 果 孤 立 的 后 台 进程 企图 向 终端 写 数 据 ， 将 得 到 错误 信息 。 如 果 清 除了 TOSTOP 
信号 ， 或 者 忽略 或 阻塞 了 SITGTTOU， 那 么 非 孤立 的 后 台 进 程 可 以 进行 写 操作 ; 否则 停止 进程 。 

读 操作 和 写 操作 之 间 不 对 称 的 原因 在 于 : 两 个 进程 同时 进行 读 字符 操作 是 没有 意义 的 ， 
因为 那样 很 危险 。( 想象 一 下 ， 在 键入 rm* .o 时 ，shell 仅 得 到 了 rm*。) 两 个 进程 同时 进行 写 操 
作 只 会 出 现 混乱 ， 但 如 果 那 是 用 户 实际 要 做 的 ， 也 可 以 那样 做 。 


4.3.2 会 话 系统 调用 


setsid 一 一 建立 会 话 和 进程 组 
#include <unistd.h> 


pid_t setsid(void); 
7* Returns process-group ID or -1 on error (sets errno) */ 


getsid 一 一 得 到 会 话 ID 
#include <unistd.h> 


pid_t getsid( 


pid_t pid /* process ID or 0 for calling process */ 





); 
/* Returns session ID or -1 on error (sets errno) */ 
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前 面 说 过 ， 每 个 登录 都 会 建立 一 个 新 会 话 ， 但 是 会 话 从 何 而 来 ?实际 上 ， 任 何 已 经 不 是 
会 话 头 的 进程 都 可 以 调用 setsid 而 成 为 新 会 话 的 头 ， 而且 是 那个 会 话 中 唯一 一 个 进程 组 的 进 
程 组 头 。 重 要 的 是 ， 该 新 会 话 没有 控制 终端 。 这 点 对 后 台 进程 来 说 是 很 重要 的 ， 因 为 后 台 进 
程 不 需要 控制 终端 ， 而 且 在 会 话 需要 创建 与 登录 时 创建 的 控制 终端 不 同 的 控制 终端 时 ， 这 一 
点 也 是 很 重要 的 。 新 会 话 打开 的 第 一 个 终端 设备 将 成 为 该 会 话 的 控制 终端 。 


4.3.3 进程 组 系统 调用 


setpgid 一 一 设置 或 建立 进程 组 
#include <unistd.h> 
int setpgid( 
pid_t pid, /* process ID or 0 for calling process */ 
j pid_t pgid /* process-group ID */ 
/* Returns 0 on success or -1 on error (sets errno) */ 
getpgid 一 一 得 到 进程 组 ID 
#include <unistd.h> 


pid_t getpgid( 
pid_t pid /* process ID or 0 for calling process */ 


); 
/* Returns process-group ID or -1 on error (sets errno) */ 





通过 调用 setpgid， 可 以 使 已 经 不 是 进程 组 头 的 进程 成 为 新 进程 组 的 头 。 如 果 两 个 参数 
是 相同 的 ， 而 且 具 有 那个 ID 的 进程 组 不 存在 ， 那 么 这 种 情况 就 会 发 生 。 或 者 ， 如 果 第 二 个 参数 
指定 了 一 个 已 经 存在 的 进程 组 ID ， 那 么 pid 参 数 指示 的 进程 组 将 会 改变 。 然 而 有 一 些 限制 : 

。pid 必 须 是 正在 调用 的 进程 ， 或 者 是 正在 调用 进程 的 子 进程 一 -仍然 没有 完成 “exec” 

系统 调用 ( 见 5.3 节 的 解释 )。 

。pid 必 须 与 正在 调用 的 进程 处 在 同一 个 会 话 中 。 

。 如 果 pgid 存 在 ， 那 么 它 必须 和 正在 调用 的 进程 处 于 同一 个 会 话 中 。 

实际 上 ， 限 制 没 有 那么 多 。 一 般 情况 是 ，shell 在 管道 中 为 每 一 个 命令 创建 子 进程 ， 选 择 
一 个 作 进 程 组 头 ， 使 用 setpgid 创 建新 进程 组 ， 接 着 通过 其 他 的 setpgid 系 统 调用 将 管道 中 
的 其 他 命令 放 到 那个 组 中 。 一 旦 所 有 这 些 都 创建 完成 ， 进 程 组 的 分 配方 案 就 不 会 变 了 ， 尽 管 
理论 上 可 以 改变 。 

虽然 两 个 较 旧 的 调用 setpgrp 和 getpgrp 也 可 以 用 于 设置 和 得 到 进程 组 DD， 但 它们 的 功 
能 比 setpgid 和 getpgid 的 功能 弱 ， 并 且 已 经 过 时 。 


4.3.4 控制 终端 系统 调用 






tcsetpgrp 一 一 设置 前 台 进 程 组 ID 


#include <unistd.h> 









int tesetpgrp( 2 
int fd, /* file descriptor */ 


pid_t pgid /* process-group ID */ 





; 
/* Returns 0 on success or -1 on error (sets errno) */ 
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tegetpgrp 一 一 得 到 前 台 进程 组 ID 


#include <unistd.h> 


pid_t tegetpgrp( 
fi 


int fd /* file descriptor */ 


) 
/* Returns process-group ID or -1 on error (sets errno) */ 





tegetsid 一 一 得 到 会 话 ID 


#include <termios.h> 





pid_t tcgetsid( 
int fd /* file descriptor */ 


) 
/* Returns session ID or -1 on error (sets errno) */ 








tcsetpgrp 系 统 调用 可 以 将 进程 组 放 到 前 台 ， 这 意味 着 它 接收 了 控制 终端 产生 的 信号 。 
前 台 上 使 用 的 所 有 内 容 移 到 后 台 。 进 程 组 必须 和 正在 调用 的 进程 在 同一 个 会 话 中 。 

shell 命 令 fg 使 用 tcsetpgrp 将 所 被 请 求 的 进程 放 到 前 台 。 键 入 Ctrl-z 不 会 直接 把 前 台 进 
程 移 到 后 台 ; 实际 发 生 的 是 Ctrl-z 向 进程 发 送 了 SIGTSTP 信 号 ,， SIGTSTP 信 号 停止 了 该 进程 ， 
接着 父 进程 (shell) 从 waitpid 系 统 调用 得 到 返回 值 ， 此 waitpid 系 统 调 用 会 告诉 父 进程 发 
生 了 什么 。shell 接 着 执行 tcsetPgrP, 并 将 其 本 身 移动 到 前 台 。 

tcgetsid 仅 在 SUS 系 统 中 存在 ， 在 FreeBSD 系 统 中 得 不 到 它 。 然 而 ， 可 以 从 向 控制 终端 
打开 的 文件 描述 符 中 得 到 会 话 ID， 首 先 要 通过 调用 tcgetpgrp 得 到 前 台 进 程 组 ID (因为 该 进 
程 组 ID 必须 是 会 话 进程 中 某 个 进程 的 进程 ID )， 接 着 通过 调用 getsid 得 到 会 话 ID。 


43.5 使 用 与 会 话 相关 的 系统 调用 
下 面 的 函数 用 前 面 的 系统 调用 输出 了 许多 与 会 话 和 进程 组 相关 的 信息 : 
#include <termios.h> 


static void showpginfo(const char *msg) 


{ 
int fd; 


printf ("gs\n", msg); 
printf("\tprocess ID = %ld; parent = %ld\n*, 
(long)getpid(), (long)getppid()); 
printf ("\tsession ID = tld; process-group ID = %1d\n", 
(long) getsid(0), (long) getpgid(0)); 
ec_negl( fd = open("/dev/tty", O_RDWR) ) 
printf (*\tcontrolling terminal's foreground process-group ID = %1d\n*, 
(long) tegetpgrp (fd) ) ; 
#if _XOPEN_VERSION >= 4 
printf ("\tcontrolling-terminal's session ID = $ld\n", 
(long) tcgetsid(fd)); 
telse 
printf ("*\tcontrolling-terminal's session ID = %ld\n", 
(long) getsid(tcgetpgrp (fa) )); 
#endif 
ec_negl( close(fd) ) 
return; 
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EC_CLEANUP_BGN 
EC_FLUSH (*showpginfo") 

EC_CLEANUP_END 

} 


当 进程 启动 和 进程 得 到 SIGCONT 信 号 时 ， 我 们 希望 调用 showpginfo， 以 便当 进程 在 后 
台 运行 时 我 们 能 够 了 解 进展 情况 。 在 第 9 章 之 前 ， 本 书 没有 过 多 地 讨论 信号 捕获 ， 目 前 你 需要 
了 解 的 是 该 结构 的 初始 化 ， 以 及 当 SIGCONT 信 号 到 达 时 ， 调 用 sigaction 为 catchsig 的 执 
行 做 准备 。9 之 后 ， 主 程序 进入 休眠 状态 。 如 果 因为 信号 到 达 ， 主 程序 从 sleep 返 回 ， 那 么 
会 再 次 进入 休眠 状态 。 


int main(void) 
{ 
struct sigaction act; 


memset (&act, 0, sizeof (act) ); 
act.sa_handler = catchsig; 
ec_negl( sigaction(SIGCONT, &act, NULL) ) 
showpginfo("initial call"); 
while (true) 

sleep (10000) ; 


EC_CLEANUP_BGN 
exit (EXIT_FAILURE) ; 

EC_CLEANUP_END 

} 


static void catchsig(int signo) 
{ 
if (signo == SIGCONT) 
showpginfo("got SIGCONT"); 
} 


与 pginfo 交 互 的 示例 如 下 : 


$ echo $$ 
5140 
$ pginfo 
initial call 
process ID = 6262; parent = 5140 
session ID = 5140; process-group ID = 6262 
controlling terminal's foreground process-group ID = 6262 
controlling-terminal's session ID = 5140 


^z[1]+ Stopped pginfo 
$ bg %1 
[1]+ pginfo & 
got SIGCONT 
process ID = 6262; parent = 5140 


session ID = 5140; process-group ID = 6262 
controlling terminal's foreground process-group ID = 5140 
controlling-terminal's session ID = 5140 


首先 可 以 看 到 shell 的 进程 ID 是 5140. 开始 时 pginfo 在 前 台 运行 , 并 位 于 自己 的 进程 组 中 ， 


O 在 9.1.7 节 将 讨论 对 系统 调用 在 信号 句柄 中 所 做 事情 的 限制 ， 以 及 showpginfo 所 做 的 一 些 技术 上 不 合法 的 
事情 。 虽 然 在 第 4 章 对 这 些 内 容 不 了 解 ， 但 不 会 对 理解 这 个 例子 有 多 大 妨碍 。 
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该 进程 组 的 ID 是 6262， 这 与 pginfo 的 进程 ID 相同 。 这 意味 着 Pginfo 是 进程 组 头 。 会 话 ID 和 
shell 进 程 ID 相同 ， 这 意味 着 pginfo 和 shell 位 于 同一 个 会 话 中 。 然 后 当 用 户 按 下 Ctrl-z 时 ， 
shell 得 到 了 其 子 进程 pginfo 的 状态 ， 并 在 停止 运行 后 进行 汇报 ， 接 着 将 它 恢复 到 前 台 ， 并 允 
许 用 户 向 shell 一 bg 键入 其 他 命令 ， 该 shell 在 后 台 重 启 了 pginfo。 后 台 向 pginfo 发 送 
SIGCONT 信 号 ， 这 使 得 pginfo 再 次 输出 信息 。 除 了 这 次 前 台 进程 组 是 5140 之 外 ， 其 他 与 上 
述 的 shell 相 同 。 

大 多 数 与 会 话 和 进程 组 相关 的 系统 调用 由 shell 而 不 是 其 他 应 用 程序 所 使 用 。 然 而 ， 当 要 
把 进程 的 控制 终端 切换 到 伪 终 端 时 ，setsid 系 统 调用 对 应 用 程序 来 说 十 分 重要 ， 见 4.10.1 节 
所 述 。 
4.4 ioctl 系 统 调用 


回顾 以 前 讨论 的 内 容 ， 可 以 知道 UNIX 有 两 种 设备 ， 块 设备 和 字符 设备 。 在 第 3 章 已 经 讨 
论 了 块 设备 ， 本 章 将 讨论 一 种 用 于 终端 的 重要 的 字符 设备 。 有 一 个 控制 所 有 类 型 字符 设备 的 
通用 系统 调用 ioct1: 


ioctl 一 一 控制 字符 设备 


#include <...> 


int ioctl( 
int fd, /* file descriptor */ 


int req, /* request */ 
an /* arguments that depend on request */ 


de 
/* Returns -1 on error (sets errno); some other value on success */ 





由 于 POSIX 和 SUS 标 准 没有 详细 说 明 这 些 设备 ， 所 以 除了 下 面 将 要 列 出 的 那 两 种 例外 情况 
之 外 ， 包 含 文件 、 各 种 请 求 和 与 ioct1 使 用 相关 的 第 三 个 参数 都 是 依赖 于 实现 的 ， 一 般 在 你 
试图 控制 的 设备 驱动 程序 的 文档 中 可 以 找到 相关 的 详细 内 容 。 


两 种 例外 情况 是 : 
。 通 过 ioct1 对 终端 所 做 的 每 件 事情 都 有 自己 的 标准 函数 ， 主 要 是 因为 这 样 的 话 ， 可 以 在 


编译 时 检测 参数 类 型 。 这 些 函 数 是 kcgetattr、tcsetattr、tcdrain、tcflow、 
tcflush 和 tcsendbreak， 下 一 节 将 讨论 这 些 函 数 。 

。SUS 确 实 详 细 说 明了 ioct1 是 如 何 使 用 于 流 的 ， 我 会 在 4.9 节 中 简短 地 对 其 进行 阐述 。 
除了 4.9 节 之 外 ， 本 书 将 不 再 进一步 讨论 ioct1。 


4.5 设置 终端 属性 


用 于 控制 终端 的 两 个 重要 系统 调用 是 tcgetattr 和 tcsetattr， 前 者 用 以 得 到 控制 终 
端的 当前 属性 ， 后 者 用 于 设置 新 属性 。 其 他 四 个 函数 tcdrain、tcflow、tcflush 和 
tcsendbreak 将 在 4.6 节 讨论 。 
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4.5.1 tcgetattr 和 tcsetattr 的 基本 用 法 


tegetattr 一 得 到 终端 属性 


#include <termios.h> 


int tcgetattr( 
int fd, /* file descriptor */ 
struct termios *tp /* attributes */ 


/* Returns 0 on success or -1 on error (sets errno) */ 


tesetattr 一 一 设置 终端 属性 


#include <termios.h> 



















int tcsetattr( 
int fd, /* file descriptor */ 
int actions, /* actions on setting */ 
const struct termios *tp /* attributes */ 






ve 
/* Returns 0 on success or -1 on error (sets errno) */ 


struct termios 一 一 终端 控制 函数 的 结构 


struct termios { 
teflag_t c_iflag; input flags */ 


output flags */ 


7 
teflag_t c_oflag; Vd 
teflag_t c_cflag; /* control flags */ 
ye 
J. 


local flags */ 


tcflag_t c_lflag; 
control characters */ 


ce_t c_cc[NCCS]; 





终端 信息 结构 (termios) 包含 50 个 标志 位 ， 这 些 标志 位 将 告诉 驱动 程序 如 何 处 理 字符 
的 出 入 ， 如 何 设置 通信 线路 参数 ， 如 波 特 率 等 。 该 结构 也 定义 了 几 个 控制 字符 ， 如 删除 字符 
(通常 是 Del 和 Backspace ) ， 删 除 行 (通常 是 Ctrl-u) 和 EOF (通常 是 Ctrl-d) 。 

在 改变 这 些 属性 之 前 ， 需 要 调用 tcgetattr 初 始 化 该 结构 。 因 为 该 结构 很 复杂 ， 也 可 能 
加 载 了 一 些 已 定义 的 实现 标志 ， 所 以 最 好 不 要 从 零 开始 初始 化 该 结构 。 得 到 该 结构 后 ， 可 以 
按 需 调整 标志 和 字段 ， 接 着 调用 tcsetattr 实 现 这 个 改变 。 第 二 个 参数 action 控 制 如 何 和 
何 时 改变 生效 ;使 用 如 下 符号 之 一 : 

TCSANOW 根据 该 结构 中 的 信息 ， 立 刻 设置 终端 。 

TCSADRAIN ”与 TCSANOW 相 似 ， 但 首先 要 等 待 所 有 待 解决 的 输出 发 送 完成 。 当 实现 影响 
输出 的 改变 时 才 使 用 ， 以 确保 在 写 人 时 进行 有 效 地 处 理 。 

TCSAFLUSH ”与 TCSADRAIN 相 似 ， 但 除了 要 等 待 所 有 待 解决 的 输出 排 空 外 ， 也 要 刷新 
输入 队列 。 当 开始 新 的 交互 模式 (如 开始 新 的 屏幕 编辑 ) 时 ， 这 种 方式 将 是 最 安全 的 ， 因 为 
它 能 防止 以 前 输入 的 字符 造成 不 良 的 后 果 。 

下 面 的 小 节 描述 了 通常 使 用 的 大 部 分 标志 ， 以 及 在 一 般 应 用 中 如 何 将 这 些 标志 混合 〈 例 
如 “ 原 操作 ”模式 )。 关 于 标准 化 标志 的 完整 列表 ， 可 以 查阅 [SUS2002]。 或 者 ， 也 可 以 执行 
man termios 或 者 man termio 来 查阅 实现 中 所 使 用 的 标志 。 


4.5.2 字符 大 小 和 奇偶 性 


c_cf1ag 中 的 标志 代表 字符 大 小 (cs7 代 表 7 位 ; Cs8 代 表 8 位 )、 停 止 位 的 个 数 
(CsTOPB 代 表 2 个 ， 清 除 该 标志 代表 1 个 )、 是 否 应 该 检测 奇偶 性 (设置 PARENB) 以 及 奇偶 位 
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(设置 PARODD 代 表 奇数 ， 清 除 PpARODD 代 表 偶数 )。 这 里 没有 创新 ; 一 般 比较 好 的 方式 是 寻找 
有 效 标志 的 组 合 。 

当 奇 偶 校 验 失 败 时 ， 也 可 以 得 到 更 多 关于 字符 的 信息 。 如 果 设 置 了 c_iflag 中 的 PARMRK 
标志 ， 那 么 错误 字符 前 面 就 会 有 0377 和 0 两 个 字符 。 否 则 ， 奇 偶 性 不 正确 的 字符 将 以 NUL 字 节 
和 输入。 或 者 可 以 将 c_iflag 的 标志 设置 成 TSGNPAR， 以 完全 忽略 奇偶 性 不 正确 的 字符 。 


4.5.3 速度 


现在 大 部 分 终端 的 运行 速度 都 很 快 ， 但 是 仍然 有 一 个 定义 各 种 不 同 标准 速度 的 符号 (不 
是 整数 ) 列表 ， 包 括 一 些 很 低 的 速度 。 其 名 字 具 有 Bn 的 形式 ， 其 中 n 可 以 取 50、75、110、 
134、150、200、300、600、1200、1800、2400、4800、9600、19200 或 者 38400。 
单位 是 比特 / 秒 ， 在 UNIX 文 档 和 标准 中 称 为 “ 波 特 ”。 

一 些 实现 在 c_cf1ag 字 段 中 设 定 速度 ， 但 是 为 了 移植 ， 经 常 使 用 4 个 函数 得 到 或 者 设置 输 
入 和 输出 的 速度 ， 而 不 是 直接 处 理 termios 结 构 。 这 些 函 数 仅 处 理 该 结构 一 首先 必须 调用 
tcgetattr 配 置 该 结构 ， 接 着 还 必须 调用 tcsetattr 使 速度 改变 生效 。 同样， 记 住 
speed_t 了 唯 -的 标准 值 是 Bn 符号 。 尽 管 一 些 执行 程序 可 能 允许 以 简单 整数 形式 传递 ， 但 也 不 
可 能 方便 地 实现 。 


cfgetispeed 一 一 从 termios 结 构 得 到 输入 速率 
4include <termios.h> 


speed_t cfgetispeed( 
const struct termios *tp /* attributes */ 





La 
/* Returns speed (no error return) */ 


cfgetospeed 一 一 从 termios 结 构 得 到 输出 速率 










#include <termios.h> 


speed_t cfgetospeed( 
const struct termios *tp /* attributes */ 






yy 
/* Returns speed (no error return) */ 






cfsetispeed 一 一 在 termios 结 构 中 设置 输入 速率 


#include <termios.h> 





int cfsetispeed( 
struct termios *tp, /* attributes */ 
speed_t speed /* speed */ 







ve 
/* Returns 0 on success or -1 on error (may set errno) */ 


cfsetospeed 一 一 在 termios 结 构 中 设置 输出 速率 


#include <termios .h> 











int cfsetospeed( 
struct termios *tp, /* attributes */ 
speed_t speed /* speed */ 








ve 
/* Returns 0 on success or -1 on error (may set errno) */ 


速度 B0 是 特殊 的 :如 果 将 其 设置 为 输出 速度 ，tcsetattr 将 断 开 与 终端 的 连接 ; 如 果 将 
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其 设置 为 输入 速度 ， 则 意味 着 输出 速度 和 输入 速度 是 相等 的 。 


4.5.4 字符 映射 

c_of1ag 中 的 标志 INLCR 和 ICRNL 可 以 控制 输入 时 的 回 车 符 和 换行 符 之 间 的 映射 ， 通 常 
第 一 个 是 清除 ， 第 二 个 是 设置 。 对 于 输入 回 车 符 和 换行 符 的 终端 ， 当 按 下 回 车 键 时 ， 将 忽略 
回 车 (IGNCR)。 

在 输出 时 ， 通 常 需要 将 换行 映射 为 一 个 回 车 符 和 一 个 换行 符 ; c_of1ag 中 的 标志 ONLCR 
可 以 完成 这 项 工作 。 其 他 标志 可 以 将 回 车 符 改 成 换行 符 (OCRNL )， 并 且 停 留 在 0 列 (ONOCR ) 。 
如 果 换 行 也 引起 了 回 车 ， 那 么 有 一 个 标志 (ONLRET) 可 以 将 这 个 情况 告诉 给 终端 驱动 程序 ， 
以 便 终端 能 跟踪 该 列 (如 对 于 Tab 键 和 Backspace 键 来 说 )。 

驱动 程序 也 能 控制 仅 使 用 大 写字 母 的 终端 ， 与 以 前 相 比 这 类 终端 更 不 常见 。 如 果 设 置 了 
c_1flag 中 的 标志 XCASE、c_iflag 中 的 TIUCLC 以 及 c_oflag 中 的 OLCUC， 那 么 输入 时 的 大 
写字 母 将 映射 为 小 写 ， 输 出 时 的 小 写字 符 将 映射 为 大 写字 符 。 因 为 在 UNIX 系 统 中 使 用 小 写字 
母 的 时 候 多 于 大 写字 母 ， 所 以 这 是 很 有 用 的 。 为 了 输入 或 者 输出 大 写字 母 ， 可 以 在 字母 前 面 加 
上 “\ 符号 。 

如 果 设 置 了 c_iflag 中 的 ISTRIP 标 志 ， 那 么 输入 字符 将 缩短 成 7 位 (在 奇偶 校 验 完成 以 
后 )。 否 则 ， 输 入 都 是 8 位 ， 而 一 些 终端 使 用 7 位 编码 的 ASCII， 因 此 在 这 些 终端 设备 上 这 种 缩 
短 通常 是 很 有 用 的 。 然 而 现在 的 设备 和 程序 ， 如 xterm、telnet 或 者 ssh， 可 能 可 以 传输 完 
整 的 8 位 。 输 出 时 发 送 进程 中 所 写 人 的 所 有 位 。 如 果 8 个 数据 位 要 被 发 送 给 终端 ， 那 么 必须 关 
闭 奇偶 生成 器 ， 这 可 以 通过 清除 c_cf1ag 中 的 PARENB 标 志 来 实现 。 


4.5.5 HIRAM RAT 

过 去 常见 的 终端 是 机 械 的 ， 而 且 缺 乏 大 的 缓冲 区 ， 因 此 在 执行 不 同 的 动作 时 需要 时 间 ， 
如 返回 车 架 。 可 以 通过 设置 c of lag 中 的 标志 来 调整 换行 、 回 车 、 退 格 、 水 平 制 表 、 垂 直 制 
表 以 及 构架 反馈 的 延迟 ， 但 现在 可 能 不 需要 这 些 工 作 了 。 

另 一 个 标志 TaAB3 可 以 把 输出 制 表 符 规 换 成 适量 的 空格 。 这 对 于 有 些 终端 来 说 是 有 用 的 ， 
如 没有 自己 的 制 表 符 的 终端 ， 或 者 是 太 麻烦 而 不 能 设置 制 表 符 的 终端 ， 或 者 是 终端 实际 上 为 
另 一 个 计算 机 ， 该 计算 机 正在 下 载 输出 ， 并 且 仅 需要 一 些 空格 。 


4.5.6 流 控 制 

当 用 户 按 下 Ctrl-s 或 者 通过 进程 调用 tcf1low ( 见 4.6 节 ) 时 , 都 可 以 立即 停止 向 终端 输出 。 
按 下 Ctrl-q 或 者 通过 调用 flow 都 可 以 重新 启动 流 。 

如 果 设 置 了 c_iflag 中 的 IXANY 标 志 ， 那 么 用 户 键入 任何 一 个 字符 都 可 以 重新 启动 流 ， 
不 仅仅 是 Ctrli-q。 如 果 清 除了 IXON 标 志 ， 那 么 用 户 就 得 不 到 任何 输出 流 控 制 ，Ctri-s 和 Ctrl- 
9 没有 任何 特殊 含义 。 

终端 驱动 程序 也 支持 输入 流 控制 。 如 果 设置 了 IXOFF 标 志 ， 那 么 输入 队列 满 时 ， 驱 动 程 
序 将 向 终端 发 送 Ctrl-s 以 中 止 输入 。 当 由 于 进程 读 取 队 列 中 的 一 些 字符 而 使 队列 长 度 减 少时 ， 
驱动 程序 将 向 终端 发 送 Ctrl-q 来 恢复 输入 。 当 然 ， 这 个 特性 只 能 用 在 支持 它 的 终端 上 。 

如 果 设 置 了 c_1f1ag 中 的 TOSTOP 标 志 ， 且 后 人 台 进 程 组 中 的 某 个 进程 企图 向 控制 终端 写 
数据 ， 那 么 驱动 程序 会 发 送 SIGTTOU 信 号 ， 原 因 和 4.3.1 节 讲解 的 相同 。 
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45.7 控制 字符 

通过 设置 termios 结 构 中 c_cc 数 组 的 一 些 元 素 ， 可 以 改变 几 个 控制 字符 的 默认 值 。 对 每 
个 可 设置 的 控制 字符 ， 表 4-2 列 出 了 其 在 c_cc 中 的 下 标 以 及 默认 值 。 在 数组 中 字符 用 它 的 内 
部 值 代替 。 





表 4-2 c_cc 下 标 
下 标 & x 默认 值 
VEOP 文件 结尾 Ctrl-d 
VEOL 替换 的 行 结尾 (很 少 使 用 ) 未 定义 
VERASE 删除 字符 Cul- 7 
VINTR 中 断 ; 产生 SIGINT 信 号 Ctrl-c 
VKILL 删除 行 Ctrl-u 
VQUIT 退出 ; 产生 SIGQUIT 信 号 Cul-\ 
VSUSP 中 断 进 程 ;产生 SITGTSTP” Cul-z 
VSTART 恢复 输入 或 者 输出 Ctrl-q 
VSTOP 挂 起 输入 或 者 输出 Ctrl-s 





“尽管 调换 名 字 VSUSP 和 VSTOP 是 有 意义 的 ， 但 该 表 还 是 正确 的 。 

+ 因为 当 按 Backspace 键 时 ， 有 些 终 炉 产生 的 是 Ctrl-? (ASCH DEL) 而 不 是 Ctrl-h (ASCII BS), 

ASCII 控 制 字符 如 下 : Ctrl-a 到 Ctrl-z 对 应 数 1~26，Ctrl-[、Ctrl-\、Ctrl-^]、Ctrl-^ 和 
Ctrl-_ 对 应 数 27~31; Ctri-? (Del) 对 应 127; Ctrl-@ 的 值 是 0。 数 32~126 对 应 95 个 可 打印 字符 ， 
这 些 字 符 不 能 用 于 控制 字符 。 标 准 US 英文 键盘 中 无 法 产生 大 于 127 的 数 ， 但 是 在 其 他 类 型 的 
键盘 上 可 能 可 以 。 使 用 功能 键 产生 多 个 字符 序列 还 没有 标准 的 UNIX 方 式 。 

大 部 分 实现 都 为 某 些 行为 (如 删除 单词 、 重 新 打印 和 放弃 输出 ) 定义 了 额外 的 字符 ; 然 
而 表 4-2 中 仅 列 出 了 一 些 标准 的 字符 。 数 组 中 元 素 的 总 个 数 是 NCCS。 

由 c_cc 下 标 VINTR、VQUIT 和 VSUSP 规 定 的 字符 产生 的 信号 ， 如 4.3 节 讨论 的 一 样 。 默 
认 情 况 下 ，SIGINT 终 止 进程 ，SIGQUIT 使 用 信息 转 储 终止 进程 ，SIGTSTP 将 在 收 到 
SIGCONT 信 号 之 后 停止 进程 。 第 9 章 对 信号 还 要 进行 更 多 的 讨论 。 

为 了 禁用 控制 字符 ， 可 以 将 控制 字符 设置 为 _jPOSIX_VDISABLE。 或者， 也 可 以 通过 清 
除 c_1flag 中 的 ISTG 标 志 来 禁用 中 断 、 退 出 和 停止 (c_cc[VSUSP] )， 该 标志 能 禁止 信号 
产生 ， 如 果 _POSIX_VDISABLE 不 在 头 文件 unistd.h 中 ， 那 么 可 以 从 pathconf 或 者 
fpathconf ( 见 1.5.6 节 ) 中 得 到 其 值 。 通 常 该 变量 被 定义 为 0。 


4.5.8 应答 

终端 通常 运行 在 全 双 工 状 态 ， 即 在 通信 线路 中 数据 可 以 同时 双向 流动 。 结 果 是 ， 计 算 机 
(不 是 终端 ) 应 答 键 和 人 字符， 并 提供 字符 已 经 正确 得 到 的 验证 。 通 常 使 用 输出 字符 映射 完成 这 
个 工作 ， 例 如， 将 回 车 符 映射 为 换行 符 ， 当 应 答 时 ， 换 行 符 映射 为 换行 符 和 回 车 符 。 

为 了 关闭 应 答 ， 可 以 清除 c_1f1ag 中 的 ECHO 标 志 。 一般 用 于 以 下 情况 : 一 种 是 保密 ， 如 
当 键入 密码 时 ; 另 一 种 是 因为 进程 本 身 必 须 决定 是 否 回 送 、 回 送 什么 以 及 在 那里 回 送 ， 如 当 


运行 屏幕 编辑 时 。 
当 删 除 字符 和 删除 行 时 ， 可 以 使 用 两 种 特殊 的 应 答 。 可 以 设置 CHOE 标 志 ， 以 便 删除 字符 
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应 答 ， 如 退 格 - 空格 - 退 格 一 样 。 从 CRT 屏 幕 上 清除 被 副 除 字符 可 以 得 到 令 人 满意 的 效果 (对 
终端 硬 拷贝 没有 任何 作用 ， 除 非 使 键入 的 元 素 不 稳定 )。 删 除 行 后 ， 设 置 标志 ECHOK 可 以 对 换 
行 符 进行 应 答 (可 能 映射 为 回 车 符 和 换行 符 )， 这 样 用 户 可 以 在 新 行进 行 工作 。 


4.5.9 ”准时 输入 与 规范 输入 


通常 情况 下 ， 输 入 的 字符 要 进行 排队 ， 直 到 完成 一 行 ( 如 通过 换行 符 或 者 EOF 指 示 )。 只 
有 这 时 才能 进行 read， 尽 管 可 能 仅 请 求 得 到 一 个 字符 。 在 许多 应 用 程序 中 ， 如 屏幕 编辑 和 格 
式 输入 系统 ， 当 键入 字符 时 ， 读 进程 就 需要 这 些 字符 ， 并 不 等 字符 装配 成 行 。 实 际 上 “ 行 ” 
的 概念 没有 任何 意义 。 

如 果 清 除了 c_1f1ag 中 的 ICANON 标 志 (“规范 的 ")， 那 么 在 读 取 输入 字符 之 前 ， 输 入 字 
符 并 没有 装配 成 行 ， 因 此 不 能 进行 删除 字符 和 删除 行 操作 。 删 除 字符 和 删除 行 失去 了 各 自 特 
定 的 含义 。 参 数 MIN 和 TIME 决 定 什么 时 间 满 足 zead。 当 队列 中 的 字符 长 度 达到 MIN， 或 者 
接 到 一 个 字 节 后 时 间 已 经 过 去 了 十 分 之 TIME 秒 时 ， 可 以 得 到 队列 中 的 字符 。TIME 当 作 字 节 
间 的 定时 器 ， 只 有 在 收 到 一 个 字 节 时 才 重 设置 字 节 间 的 定时 器 ， 在 接收 到 第 一 个 字 节 之 前 它 
是 不 启动 的 ， 因 此 在 没有 收 到 字 节 时 不 会 超时 。( 除 非 MIN 设 置 为 0 ) 

c_cc 数 组 中 的 下 标 VMIN 和 VTIME 保 存 了 MIN 和 TIME。 因 为 下 标 VMIN 和 VTIME 的 位 置 
与 YEOF 和 VEOL 的 相同 ， 所 以 必须 确保 明确 地 设置 了 MIN 和 TIME， 和 否则 得 到 的 可 能 会 是 当 
前 EOF 和 EOL 所 有 完成 的 工作 ， 这 将 造成 非常 奇怪 的 后 果 。 如 果 你 曾经 发 现 每 键入 4 个 字符 进 
程 就 完成 一 次 输入 ， 那 么 也 许 就 是 上 面 的 原因 造成 的 。( 通常 EOF 字 符 Ctrl-d 是 4。) 

MIN 和 TIME 隐 含 的 意义 是 ， 在 不 失去 单 次 read 读 取 多 个 字符 的 好 处 下 ， 人 允许 进程 在 键 
入 字符 的 同时 或 稍 后 得 到 字符 。 然 而 ， 除 非 编写 了 使 用 缓冲 输入 的 输入 程序 ， 否 则 最 好 将 
MIN 设 置 为 1 (那么 TIME 的 数值 就 无 关 紧 要 了 ， 只 要 大 于 0 就 行 )， 因 为 read 系 统 调用 无 论 如 
何 只 能 读 取 一 个 字符 。 

建议 将 MIN 和 TIME 的 值 都 设置 成 大 于 0， 如 果 两 者 之 一 或 都 为 0， 会 出 现 如 下 特殊 情况 
z=: 
。 如 果 TIME 为 0， 则 定时 器 关闭 ， 此 时 使 用 MIN， 这 里 假设 MIN 的 值 大 于 0。 

。 如 果 MIN 的 值 为 0%，TIME 将 不 再 充当 字 节 间 定 时 器 ， 调 用 read 后 ， 定 时 器 会 立即 启动 。 

当 读 取 一 个 字 节 或 定时 器 超时 时 ， 无 论 哪 种 情况 先 发 生 ，read 会 返回 。 因 此 在 这 种 情 

况 下 ，read 可 能 会 返回 值 为 0 的 计数 值 。 

。 在 两 者 都 为 0 的 情况 下 ,如果 规定 了 所 请 求 字 节 的 最 小 值 (read 的 第 三 个 参数 规定 的 值 ) 

并 且 该 数 在 输入 队列 中 有 效 ， 那 么 read 将 返回 。 如 果 没 有 可 用 字 节 ， 那 么 read 会 返回 

计数 值 0， 因 此 这 与 非 阻塞 read 操 作 相似 。 

当 设 置 了 o_NONBLOCK 且 MIN 和 /或 TIME 不 为 0 时 ， 标 准 中 没有 准确 地 说 明 会 发 生 什 么 情 
况 。 有 可 能 oO_NONBLOCK 优 先 (如 果 没 有 可 用 字符 ， 则 立即 返回 )， 也 有 可 能 MIN/TIME 优 先 。 
为 了 避免 发 生 这 种 不 确定 性 情况 ， 当 清除 ICANON 时 ， 不 应 当 设置 0_NONBLOCK。 

下 面 是 称 作 tc_keystroke 的 输入 程序 ， 该 程序 是 缓冲 的 ， 不 是 实时 的 。 因 为 它 会 改变 
终端 ， 所 以 我 们 也 提供 了 配对 程序 tc_restore， 用 以 将 终端 内 容 恢复 到 在 第 一 次 调用 
tc_keystroke 之 前 ， 在 终止 之 前 该 调用 程序 必须 调用 tc_restore。 


static struct termios tbufsave; 
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static bool have_attr = false; 

int tc_keystroke (void) 

{ 
static unsigned char buf[10]; 
static ssize_t total = 0, next = 0; 
static bool first = true; 
struct termios tbuf; 


if (first) { 
first = false; 
ec_negl( tcgetattr(STDIN_FILENO, &tbuf) ) 
have_attr = true; 
tbufsave = tbuf; 
tbuf.c_lflag &= ~ICANON; 
tbuf.c_cc[VMIN] = sizeof (buf); 
tbuf.c_cc[VTIME] = 2; 
ec_negl( tcsetattr(STDIN_FILENO, TCSAFLUSH, &tbuf) 
} 
if (next >= total) 


switch (total = read(0, buf, sizeof(buf))) { 
case -1: 

syserr ("read"); 
case 0: 


fprintf(stderr, "Mysterious EOF\n"); 
exit (EXIT_FAILURE) ; 
default: 
next = 0; 
) 
return buf [next++] ; 


EC_CLEANUP_BGN 

return -1; 
EC_CLEANUP_END 
} 


bool tc_restore(void) 


{ 
if (have_attr) 


ec_negl( tcsetattr (STDIN_FILENO, TCSAFLUSH, &tbufsave) ) 


return true; 


EC_CLEANUP_BGN 
return false; 

EC_CLEANUP_END 

d 


注意 我 们 已 经 清除 了 ICANON 标 志 (当然 也 设置 了 MIN 和 TIME)。 


典型 情况 下 还 需要 清除 更 


多 参数 、 关 闭 echo、 输 出 符号 映射 等 。 下 一 节 将 讨论 这 些 内 容 。 在 特殊 的 应 用 程序 中 ， 需 要 用 
实验 决定 MIN 和 TIME 的 值 。 我 们 曾 使 用 过 10 个 字符 和 0.2 秒 ， 使 用 0.2 这 个 值 的 效果 似乎 还 不 错 。 


下 面 是 一 段 在 循环 中 调用 tc-keystroke 进 行 测试 的 代码 : 


setbuf (stdout, NULL); 
while (true) { 
c = tc_keystroke(); 
putchar (c); 
if ieas 5) { /* *E */ 
ec_false( tc_restore() ) 
print£("\nts\n", "Exiting... 
exit (EXIT_SUCCESS) ; 
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J 
} 


该 测试 代码 中 的 重点 是 : 当 键 人 字符 时 由 终端 驱动 程序 应 答 字符 ， 接 着 tc_keystroke 
返回 字符 时 再 由 putchar 函 数 回 送 字符 。 这 样 我 们 可 以 看 到 MIN 和 TIME 的 效果 ， 如 在 下 面 的 
实验 中 ， 当 键入 “slow” 时 字母 的 回 送 速 度 很 慢 ， 键 入 “fast” 时 字母 的 回 送 速度 很 快 。 下 划 
线 表示 键入 的 字母 。 


sslloowwfastfast*E 
Exiting... 


因此 MIN 和 TIME 对 tc_keystroke 如 何 操作 没有 影响 ， 因 为 它 仍 是 准时 的 ( 仍 在 0.2 秒 
内 ， 即 设置 的 TIME 时 间 内 )， 然 而 进行 read 操 作 时 ， 所 用 时 间 却 减少 了 十 分 之 一 (或 者 其 他 
我 们 所 设置 的 MIN 值 )。 


4.5.10 原始 终端 1O 


前 一 节 描述 的 准时 输入 (或 者 称 为 非 规范 输入 ) 是 有 用 的 ， 但 有 时 既 需要 关闭 回 送 ， 又 
需要 做 许多 其 他 的 事情 。 该 模式 通常 称 作 原 始 (raw) 模式 ， 即 没有 特殊 的 输入 处 理 或 者 输出 
处 理 ， 字 符 也 立即 可 读 ， 不 必 等 待 装配 成 行 。 没 有 单独 的 设置 原始 模式 的 标志 ; 然而 必须 一 
个 一 个 地 设置 许多 属性 。( stty 命 令 具 有 raw 选 项 .) 

尽管 没有 必须 遵守 的 规定 ， 但 我 们 需要 原始 终端 具有 如 下 属性 ， 你 可 以 根据 自己 的 目的 
对 如 下 属性 稍 作 改 动 : 

1) 准时 输入 。 清 除 ICANON 并 设置 MIN 和 TIME。 

2) 不 使 用 字符 映射 。 清 除 0POST 以 关闭 输出 处 理 。 对 输入 来 说 是 清除 INLCR 和 ICRNL。 
将 字符 大 小 设置 成 CS8。 清 除 ISTRIP 以 便 得 到 所 有 的 8 个 数据 位 ， 清 除 INPCK 和 PRRENB 以 
便 关 闭 奇偶 校 验 。 清 除 ITEXTEN 以 便 关闭 扩 展 字符 处 理 。 

3) 不 使 用 流 控制 。 清 除 IXON 。 

4) 不 使 用 控制 字符 。 清 除 BRKINT 和 ISIG， 并 且 设 置 禁 用 所 有 的 控制 字符 ， 也 包括 具体 
实现 定义 的 控制 字符 。 

5) 不 回 送 。 清 除 ECHO。 

这 些 操作 都 封装 在 了 函数 tc_setraw 中 。 注 意 它 保存 了 旧 的 termios 结 构 以 便 
tc_restore ( 见 前 一 节 ) 使 用 。 


bool tc_setraw(void) 

{ 
struct termios tbuf; 
long disable; 
int i; 


#ifdef _POSIX_VDISABLE 
disable = _POSIX_VDISABLE; 
telse 
/* treat undefined as error with errno = 0 */ 
ec_negl( (errno = 0, disable = fpathconf(STDIN_FILENO, _PC_VDISABLE)) ) 
endif 
ec_negl( tegetattr(STDIN_FILENO, &tbuf) ) 
have_attr = true; 
tbufsave = tbuf; 
tbuf.c_cflag &= ~(CSIZE | PARENB); 
tbuf.c_cflag |= CS8; 
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~(INLCR | ICRNL | ISTRIP | INPCK | IXON | BRKINT); 
~OPOST; 


tbuf.c_iflag 
tbuf.c_oflag 


tbuf.c_lflag &= ~(ICANON | ISIG | IEXTEN | ECHO); 
for (i = 0; i < NCCS; i++) 

tbuf.c_cc[i] = (cc_t)disable; 
tbuf.c_cc[VMIN] = 5 
tbuf.c_cc[VTIME] = 
ec_negl( tcsetattr(STDIN_FILENO, TCSAFLUSH, &tbuf) ) 
return true; 








EC_CLEANUP_BGN 
return false; 

EC_CLEANUP_END 

} 


下 面 是 tc_setraw 的 测试 程序 ， 访 程序 使 用 stty 命 令 显 示 终端 设 


setbuf (stdout, NULL); 
printf ("Initial attributes:\n"); 
system("stty | fold -s -w 60") 
print£("\r\nRaw attributes: \n"); 
te_setraw(); 

system("stty | fold -s -w 60"); 
tc_restore(); 

printf("\r\nRestored attributes:\n"); 


system("stty | fold -s -w 60°); 


下 面 是 在 Solaris 系 统 上 得 到 的 输出 内 容 。 注 意 tc_setraw 关 闭 了 所 有 的 c_cc 字 符 ， 不 仅 
仅 是 已 知 的 标准 字符 。 但 是 它 没有 关闭 所 有 可 能 会 使 终端 成 为 非 原始 终端 的 所 有 标志 ， 如 
imaxbe1l。9 不 过 你 可 能 会 发 现 ， 必 须 针对 代码 所 要 植 信 的 每 个 系统 的 具体 情况 来 调整 
tc_setraw， 要 不 然 就 必须 使 用 Curses 库 ( 见 4.8 节 )， 它 可 以 把 终端 设置 成 原始 模式 。 








Initial attributes: 
speed 38400 baud; evenp 

rows = 40; columns = 110; ypixels = 0; xpixels = 0; 
swtch = <undef>; 

brkint -inpck icrnl -ixany imaxbel onlcr 

echo echoe echok echoct1 echoke iexten 


Raw attributes: 
speed 38400 baud; -parity 
40; columns = 110; ypixels = 0; xpixels 









rows 
min time = 2; 
intr = <undef>; quit = <undef>; erase = <undef>; kill = 


<undef>; eof = ^e; eol = ^b; swtch = <undef>; start = 


<undef>; stop = <undef>; susp = <undef>; dsusp = <undef>; 

rprnt = <undef>; flush = <undef>; werase = <undef>; lnext = 
<undef>; 
-inpck -istrip -ixon imaxbel -opost 
-isig -icanon -echo echoe echok echoct1 echoke 






Restored attributes: 

speed 38400 baud; evenp 

rows = 40; columns = 110; ypixels = 0; xpixels = 0; 
swtch = <undef>; 

brkint -inpck icrnl -ixany imaxbel onlcr 





O 当 输 入行 太 长 时 会 发 出 响 铃 ， 该 标志 控制 响 铃 长 短 的 非 标准 标志 。 
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echo echoe echok echoctl echoke iexten 

有 时 在 调试 程序 期 间 (或 者 之 后 ! )， 将 终端 置 于 原始 模式 的 程序 可 能 在 恢复 原始 设置 之 
前 就 中 止 了 。 用 户 有 时 会 认为 是 计算 机 崩溃 ， 或 者 锁定 了 终端 一 他们 甚至 不 使 用 EOF 终止 
联接 主机 的 操作 。 但 从 原始 模式 恢复 是 可 能 的 。 首先 ， 回 顾 可 知 ， 清 除了 ICRNL 设 置 ; 这 意 
味 着 必须 使 用 Ctrl-j 来 结束 输入 ， 而 不 是 使 用 回 车 。S 其 次 ， 因 为 关闭 了 ECHO， 所 以 你 也 看 
不 到 键入 的 内 容 。 如 果 以 键入 几 个 换行 符 作 为 开始 ; 那么 应 该 能 看 到 一 系列 shell 提 示 符 ， 但 
它们 并 没有 位 于 左 侧 空 白 上 ， 因 为 关闭 了 输出 处 理 (OPOST)。 接 着 ， 紧 随 一 个 换行 符 键 入 
stty sane， 所 有 内 容 就 应 该 能 正常 显示 了 。 


46 其 他 终端 控制 系统 调用 


如 4.5.1 节 所 看 到 的 ， 当 使 用 tcsetattr 设 置 终端 属性 时 ， 在 利用 TCSADRAIN 动 作 完 成 
设置 之 前 ， 可 以 清除 (等待 ) 输出 队列 ， 另 外 ， 也 可 以 使 用 TCSAFLUSH 动 作 刷 新 ( 扔 掉 ) 输 
入 队列 中 的 任何 字符 。 在 不 用 设置 属性 的 情况 下 ， 利 用 两 个 系统 调用 就 可 以 分 别 控制 清除 和 


刷新 操作 。 
tedrain 一 一 耗 尽 (等 待 ) 终端 输出 


#include <termios.h> 





int tcdrain( 
int fd /* file descriptor */ 


) 
/* Returns 0 on success or -1 on error (sets errno) */ 


teflush 一 一 刷新 (丢弃) 终端 输入 、 输 出 或 者 两 者 


#include <termios.h> 


int tcflush( 
int fd, /* file descriptor */ 
int queue /* queue to be affected */ 
) 
/* Returns 0 on success or -1 on error (sets errno) */ 





这 些 函数 只 对 队列 起 作用 一 一 即 从 终端 接收 到 的 字符 还 没有 被 任何 进程 读 取 ， 或 者 一 个 进 
程 写 人 的 字符 还 设 有 向 终端 传送 。 

tcflush 函 数 的 第 二 个 参数 (queue) 可 以 取 下 列 的 一 个 值 : 

TCIFLUSH 刷 新 输入 队列 。 

TCOFLUSH 刷 新 输出 队列 。 

TCIOFLUSH 同 时 刷新 输入 和 输出 队列 。 

因此 在 设置 属性 之 前 ，tcsetattr 的 参数 TCSADRAIN 的 作用 与 调用 tcdrain 相 同 ， 
tcsetattr 的 参数 TCSAFLUSH 的 作用 与 带 有 队列 参数 TCIFLUSH 的 情况 下 同时 调用 tcdrain 
和 tcflush 相 同 。 

下 一 个 系统 调用 是 tcf1ow， 它 允许 应 用 程序 挂 起 或 者 重新 启动 终端 的 输入 或 者 输出 : 


O ”对 shell 来 说 ， 一 个 不 错 的 增强 措施 是 将 回 车 符 当 作 行 结束 符 和 换行 符 。( 靶 注 首 次 出 现在 1985 年 一 -到 目前 
为 止 仍 没有 改变 。) 
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teflow 一 一 挂 起 或 重启 终端 输入 流 或 输出 流 


#include <termios.h> 


int tcflow( 
int fd, /* file descriptor */ 
int action /* direction and suspend/restart */ 


a 
/* Returns 0 on success or -1 on error (sets errno) */ 





action 参 数 可 以 取 下 列 值 之 一 : 

TCOOFF 挂 起 输出 。 

TCOON 重 新 启动 已 挂 起 的 输出 。 

TCIOFF 发 送 STOP 字 符 ， 目 的 是 为 了 使 终端 挂 起 输入 。 

TCION 发 送 START 字 符 ， 以 便 使 终端 重新 启动 已 经 挂 起 的 输入 。 

准备 向 终端 写 信 多 页 的 应 用 程序 时 ， 在 输入 每 页 后 可 以 使 用 TCOOFF 挂 起 输出 ， 以 便 用 户 
在 从 键盘 输入 START 字 符 之 前 ， 可 以 读 取 数据 ， 默认 情况 下 用 Ctrl-q 来 继续 输入 ( 见 4.5.7 节 )。 
带 有 TCOOFF 调 用 tcf1ow 之 后 ， 应 用 程序 可 以 继续 写 输出 页 ， 当 终端 队列 满 时 ， 下 次 write 
操作 将 阻塞 ， 直 到 队列 释放 一 些 数据 。 

然而 这 种 方法 并 不 是 用 户 所 期 望 的 ， 而 且 不 是 一 次 一 页 (page-at-a-time) 的 应 用 程序 运 
行 的 典型 方式 。 像 nore 和 man 这 样 的 命令 输出 一 页 后 ， 会 提示 用 户 键入 一 个 普通 字符 ( 如 空 
格 或 者 回 车 符 ) 来 得 到 下 一 页 。 在 内 部 ， 这 样 的 应 用 程序 在 输出 一 页 后 ,会 输出 提示 符 ， 并 
且 阻 塞 read (典型 情况 下 会 使 用 规范 输入 和 关闭 回 送 来 阻塞 )， 等 待 用 户 继续 输入 字符 。 

在 输入 方 ， 历 史上 有 应 用 TCIOFF 和 TCION 防 止 终端 溢出 输入 队列 的 例子 ， 但 是 如 今 这 
完全 由 驱动 程序 和 /或 硬件 来 处 理 。 今 天 ，tcflow 可 能 仅 用 于 特殊 的 设备 而 不 是 实际 的 
终端 。 

同类 系统 调用 还 有 tcsendbreak， 它 向 终端 发 送 中 断 信号: 


tcsendbreak 一 一 发 送 中 断 到 终端 


#include <termios.h> 


int tcsendbreak( 


int fd, /* file descriptor */ 
int duration /* duration of break */ 


) 
/* Returns 0 on success or -1 on error (sets errno) */ 





“中 断 ”是 向 终端 发 送 一 段 时 间 的 0 比特 流 ， 这 种 方法 常用 来 将 终端 置 为 一 种 特殊 的 “ 注 


意 ”模式 。 
如 果 duration 参 数 为 0， 则 时 间 段 将 在 1/4 秒 到 1/2 秒 之 间 。 如 果 该 参数 不 为 0， 其 含义 是 
随 实现 而 定 。 但 是 不 必 担心 其 可 移植 性 一 一 因为 你 可 能 永远 都 没有 机 会 向 终端 发 送 中 断 信 号 。 


4.7 终端 识别 系统 调用 


如 4.2.1 节 所 述 ， 通 用 路 径 名 /dev/tty 提 供 了 访问 进程 控制 终端 的 方式 ， 无 需 知道 控制 终端 
的 名 字 。 然 而 ， 在 SUS2 系 统 之 前 ， 没 有 那个 要 求 ， 但 却 有 实现 类 似 功能 的 系统 调用 。 


166 HAE 





ctermid 一 一 为 控制 终端 得 到 路 径 名 
#include <stdio.h> 


char *ctermid( 
char *buf /* buffer of size L_ctermid or NULL */ 


ve 
/* Returns pathname or empty string on error (errno not defined) */ 





可 以 使 用 NULL 参 数 调用 ctermid, 这 时 它 会 使 用 一 个 具有 合适 大 小 的 静态 缓冲 区 。 或者， 
你 也 可 以 提供 缓冲 区 的 大 小 1_ctermid (包含 NUL 字 节 的 空间 ) ， 以 避免 当 多 个 线程 调用 该 
函数 时 发 生 冲突 。 注 意 ， 当 ctermid 出 错时 ， 返 回 的 是 空 字符 串 ， 而 不 是 NULL 。 对 
ctermid 来 说 ， 仅 需要 返回 字符 串 /dev/tty， 这 比 返 回 其 他 内 容 更 有 用 ， 在 大 多 数 (如果 
不 是 全 部 的 话 ) 系统 上 那 是 其 全 部 的 工作 。 

一 定 程度 来 说 ， 更 加 有 用 的 是 能 够 返回 实际 终端 名 字 的 系统 调用 ，ttyname 和 
ttyname_r 恰 好 能 完成 上 述 功能 ， 只 是 必须 给 它们 一 个 打开 的 文件 描述 符 作为 输入 : 


ttyname 一 一 查找 终端 的 路 径 名 


#include <unistd.h> 











char *ttyname( 
int fd /* file descriptor */ 


de 
/* Returns string or NULL on error (sets errno) */ 


ttyname_r 一 一 查找 终端 的 路 径 名 
#include <unistd.h> 


int ttyname_r( 


int fd, /* file descriptor */ 
char "buf, /* buffer for pathname */ 
size_t bufsize /* size of buffer */ 





ve 
/* Returns 0 on success or error number on error (errno not set) */ 





PARAM, _raBietittyname_r ie] RA Ki — EMO 
态 存储 器 而 是 你 传递 给 它 的 缓冲 区 。 同 样 ， 和 我 们 见 过 的 其 他 函数 一 样 ， 设 定 缓冲 区 大 小 是 
REO AE: 如 果 (limits.h 中 ) 定义 了 宏 TTY_NAME_MAX， 那 么 就 可 以 使 用 该 宏 ， 如 果 没 
有 定义 该 宏 ， 那 么 就 必须 调用 带 有 _SC_TTY_NAME_MAX 参 数 的 sysconf 系 统 调用 ( 见 1.5.5 
节 )。 否 则 ， 只 能 始终 调用 sysconf。 如 果 你 知道 仅 有 一 个 线程 在 调用 ttyname， 那 么 到 目 


前 这 两 种 使 用 方法 是 较 容易 的 。 
下 面 是 本 人 设计 的 tty 命 令 ， 它 实现 的 功能 是 : 输出 与 标准 输入 连接 的 终端 名 字 ， 或 者 


当 不 是 终端 时 ， 输 出 “not a tty”: 


int main(void) 
{ 
char *ctty; 


if ((ctty = ttyname(STDIN_FILENO)) == NULL) { 
print£("not a tty\n"); 
exit (1); 

} 
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printf ("%s\n", ctty); 
exit (0); 

} 

这 里 使 用 1 和 0 代替 了 符号 EXIT_FAILURE 和 EXIT_SUCCESS， 因 为 SUS 清 楚 地 说 明了 返 
回 代码 应 该 是 1 或 者 0。(POSIX 仅 规定 了 EXIT_FAILURE 不 为 0， 并 没 说 它 是 1)。 

如 果 确 实 需要 控制 终端 的 名 字 ， 即 使 某 种 程度 上 来 说 ， 标 准 输入 是 向 不 同 的 终端 或 非 终 
端 输 入 开放 的 ， 那 么 你 可 能 也 会 认为 可 以 打开 /dev/tty， 并 向 ttyname 传 递 那个 文件 描述 符 。 
哎 ， 但 是 在 我 实验 的 系统 上 ttyname 并 不 是 按照 这 种 方式 工作 的 ， 它 仅仅 返回 了 /dev/tty， 并 
没有 返回 实际 的 名 字 。 实 际 上 ， 似 乎 并 没有 一 个 可 以 方便 地 得 到 控制 终端 名 字 的 方法 ， 尽 管 
标准 输入 是 终端 ， 而 且 可 能 是 控制 终端 。 

可 以 使 用 isatty 系 统 调用 检测 文件 描述 符 是 否 是 向 终端 打开 的 : 


isatty 一 一 测试 终端 
#include <unistd.h> 


int isatty( 
int fd /* file descriptor */ 


i 
/* Returns 1 if a terminal and 0 if not (may set errno on 0 return) */ 





如 果 isatty 的 返回 结果 为 0， 那 么 就 不 能 依赖 于 所 设置 的 errno 来 判断 出 错 原因 ， 但 是 
在 大 多 数 情况 下 ， 如 果 返 回 结果 不 是 1， 可 以 不 必 关 心 其 原因 。 


48 全 屏 应 用 程序 


传统 的 UNIX 命 令 有 时 是 交互 的 (如 dc、more)， 但 是 它们 仍然 会 读 写 文本 行 。 至 少 有 3 
个 其 他 有 意义 的 应 用 程序 分 类 ， 这 些 应 用 程序 更 充分 地 利用 了 显示 屏幕 和 与 它们 相关 的 输入 
设备 的 能 力 ( 如 mice): 

“面向 字符 的 、 运 行 在 廉价 终端 (目前 几乎 不 制造 了 ) 上 的 全 屏 应 用 程序 ， 以 及 终端 仿真 

程序 ， 如 telnet 和 xtrem。 最 著名 的 这 种 应 用 程序 可 能 是 vi 文本 编辑 器 。 

。 图 形 用 户 接口 (GUI) 应 用 是 为 X Window 系统 写 的 应 用 程序 ， 可 能 使 用 了 较 高 级 的 工 

具 包 ， 如 Motif、Gnome、KDE 或 者 TelTk。( 也 有 除 X 之 外 的 其 他 GUI 系统 。) 

。Web 应 用 程序 ， 在 这 类 应 用 程序 中 ， 用 户 接口 所 采用 的 技术 有 HTML、JavaScript 和 

Java 等 。 

仅 有 第 一 组 使 用 了 本 章 讨论 的 终端 的 功能 ， 这 也 是 本 章 的 主要 内 容 。X 应 用 程序 通过 网 络 
与 所 谓 的 X 服 务 器 对 话 ，GUI 处 理 实际 上 是 在 服务 器 上 运行 的 ， 该 服务 器 可 能 运行 在 基于 
UNIX 系 统 的 计算 机 上 ， 也 可 能 设 运行 在 这 类 计算 机 上 。 如 果 是 运行 在 基于 UNIX 系 统 的 计算 
机 上 ， 那 么 X 应 用 程序 将 直接 通过 设备 驱动 程序 与 显示 设备 和 输入 设备 通话 ， 而 不 通过 字符 终 
端 驱动 程序 。 同 样 ，Web 应 用 程序 通过 网 络 与 浏览 器 进行 通信 ( 见 8.4.3 节 )， 浏 览 器 将 处 理 用 
户 的 交互 过 程 。 如 果 浏览 器 运行 在 UNIX 系 统 上 ， 那 么 它 通常 会 是 一 个 X 应 用 程序 。 

下 面 给 出 一 个 非常 简单 的 、 面 向 字符 的 、 全 屏 应 用 程序 的 例子 ， 该 示例 完成 了 清除 屏幕 
和 创建 一 个 如 下 菜单 的 功能 : 
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图 4-3 RA 


用 户 键入 的 数字 不 回 送 ， 并 且 也 不 必 键 入 回 车 键 。 在 此 小 示例 中 ， 如 果 键 入 了 3 ， 屏 幕 上 
就 会 显示 图 4-4 所 示 的 内 容 。 





图 4-4 响应 
下 面 给 出 这 个 应 用 程序 的 两 种 实现 。 第 一 种 仅 针 对 ANSI 终 端 并 且 能 在 可 以 仿真 VT100 终 
端的 设备 上 运行 良好 。ANSI 终 端 (和 VT100) 有 许多 控制 序列 ， 这 里 我 们 仅 使 用 两 种 : 
。 序 列 s[r; cH 将 光标 定位 在 了 第 r 行 、 第 c 列 。( e 是 转 义 字符 。) 
。 序 列 e[2J 清 屏 。 
以 下 两 个 函数 使 用 了 这 两 个 控制 序列 ; 注意 clear 也 将 光标 移动 到 了 屏幕 的 左上 角 : 






#define ESC *\033 
bool mvaddstr(int y, int x, const char *str 
{ 

return printf (ESC *[d;#dHts", y, x, 





如 果 想 在 用 户 键入 错误 字符 时 让 终端 响 铃 ， 那 么 可 以 使 用 ASCII 代 码 来 实现 : 
#define BEL *\007" 
int beep(void) 


return printf (BEL) >= 0; 


假设 通过 调用 tc_setraw 而 使 终端 处 于 原始 模式 ， 则 可 以 用 getch 读 字符 : 
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int getch (void) 
{ 
char c; 


switch(read(STDIN_FILENO, &c, 1)) ( 
default: 
errno = 0; 
/* fall through */ 
case -1: 
return 
case 1: 
break; 





} 
return c; 


) 
这 些 就 是 我 们 所 需要 的 所 有 的 用 户 接口 服务 程序 ,完整 的 应 用 程序 在 main 函 数 中。 显然 ， 
如 果 需 要 做 某 些 事情 ， 其 代码 会 更 长 。 


int main(void) 
{ 
int ¢; 
char s[100 
bool ok = false; 





ec_false( tc_setraw() ) 
setbuf (stdout, NULL); 
while (true) ( 
ec_false( clear() ) 
ec_false( mvaddstr(2, 9, "What do you want to do?") ) 
ec_false( mvaddstr(3, 9, "1. Check out tape/DVD") ) 
ec_false( mvaddstr(4, 9, *2. Reserve tape/DVD") ) 
ec_false( mvaddstr(5, 9, "3. Register new member") ) 
ec_false( mvaddstr(6, 9, "4. Search for title/actor") ) 
ec_false( mvaddstr(7, 9, "5. Quit") ) 
ec_false( mvaddstr(9, 9, "(Type item number to continue)") ) 
ec_negl( c = getch() ) 


switch (c) { 





case '1': 
case '2' 
case '3': 
case '4': 


ec_false( clear() ) 

snprintf(s, sizeof(s), "You typed tc*, c); 

ec_false( mvaddstr(4, 9, s) ) 

ec_false( mvaddstr(9, 9, "(Press any key to continue)") ) 

ec_negl( getch() ) 

brea! 
case '5' 

ok = true; 

EC_CLEANUP 
default: 

ec_false( beep() ) 





} 


EC_CLEANUP_BGN 
(void) tc_restore(); 
(void) clear(); 
exit (ok ? EXIT_SUCCESS : EXIT_FAILURE); 
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EC_CLEANUP_END 


} 


无 论 某 类 终端 如 何 通用 ， 可 能 也 不 会 仅 为 它 编写 代码 。 这 就 需要 使 用 一 个 称 作 Curses 的 标 
准 库 ， 该 标准 库 在 4.1 节 中 介绍 过 了 。 它 包含 了 每 种 终端 的 控制 序列 的 数据 库 ， 因 此 在 运行 期 
间 可 以 切换 到 合适 的 控制 序列 。 

因为 我 巧妙 地 以 Curses 库 中 的 函数 名 命名 了 我 的 程序 中 出 现 的 、 具 有 相同 功能 的 函数 
mvaddstr、clear、beep 和 getch。 所 以 我 们 必须 给 出 main 函 数 的 Curses 版 本 : 


#include <curses.h> 


/* "ec" macro for ERR (used by Curses) */ 
#define ec_ERR(x) ec_cmp(x, ERR) 


int main(void) 


{ 


int c; 


char s[100]; 
bool ok = false; 


(void) initscr() ; 
ec_ERR( raw() ) 
while (true) { 
ec_ERR( clear() ) 


) 


ec_ERR( mvaddstr( 2 
ec_ERR( mvaddstr( 3 
ec_ERR( mvaddstr( 4 
ec_ERR( mvaddstr( 5 
ec_ERR( mvaddstr( 6 
ec_ERR( mvaddstr( 7 
ec_ERR( mvaddstr( 9 


, 9, “What do you want to do?*) ) 

. 9, "1. Check out tape/DvD") ) 

. Reserve tape/DVD") ) 

Register new member") ) 

Search for title/actor") ) 

9, "5. Quit") ) 

, 9, "(Type item number to continue)") ) 





ec_ERR( c = getch() ) 
switch (c) { 


case '5': 





ec_ERR( clear() ) 

snprintf(s, sizeof(s), "You typed èc", c); 

ec_ERR( mvaddstr( 4, 9, s) ) 

ec_ERR( mvaddstr( 9, 9, "(Press any key to continue)") ) 
ec_ERR( getch() ) 

break; 





ok = true; 
EC_CLEANUP 


default: 


} 


ec_ERR( beep() ) 


EC_CLEANUP_BGN 
(void) clear (); 

(void) refresh() ; 

(void) endwin() ; 

exit(ok ? EXIT_SUCCESS : EXIT_FAILURE); 
EC_CLEANUP_END 


} 
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有 关 这 个 程序 的 一 些 注释 如 下 : 

。 当 出 错时 ， 大 多 数 Curses 函 数 都 会 返回 ERR， 因 此 这 里 只 为 它们 定义 了 ec_ERR 宏 。 

Curses 文 档 没有 规定 使 用 error, 但 是 不 用 管 它 ， 因 为 知道 当 确实 得 到 一 个 错误 消息 时 ， 

该 消息 的 值 可 能 是 无 意义 的 。 

。Curses 要 求 以 initscr 开 始 ， 以 endwin 结 束 。 

。tc_setraw 的 Curses 版 本 是 raw。 

本 书 中 没有 过 多 地 介绍 Curses， 因 为 Curses 不 是 内 核 服务 。9SCurses 是 SUS2 和 SUS3 中 的 一 
部 分 ， 因 此 可 以 在 网 站 www.unix-systems.org/version2/online.html 上 在 线 阅读 该 规范 。 在 大 多 数 
系统 上 ， 也 可 以 键 和 man curses 或 man ncurses (Curses 的 免费 版 本 ) 来 查看 该 规范 。 


4.9 FIO 


流 是 在 一 些 UNIX 系 统 实现 上 的 一 种 机 制 ， 该 机 制 允许 字符 设备 驱动 程序 以 模块 化 方式 执 
行 。 在 一 定 程度 上 ， 应 用 程序 也 可 以 将 不 同 的 流 模块 链接 起 来 ， 以 使 那 类 驱动 程序 具有 所 需 
的 性 能 。 这 有 点 类 似 于 在 shell 层 上 运行 的 UNIX 过 滤 程 序 的 工作 方式 ; 例如 who 命 令 可 能 没 对 
其 输出 进行 排序 的 选项 ， 但 是 如 果 需 要 可 以 将 其 导入 sort。 

在 下 节 我 们 将 讨论 一 个 基于 流 的 伪 终 端的 示例 。 那 里 需要 完成 的 工作 是 打开 设备 文件 得 
到 伪 终 端 ， 接 着 使 用 ioct1 将 两 个 流 模块 “ 压 ”到 伪 终 端 (1dterm 和 ptem)， 以 使 它 的 行为 
与 终端 相似 。 与 shell 管 道 不 同 ， 在 shell 管 道中 有 许多 过 滤 程 序 可 供 选择 ， 并 可 以 创造 性 地 将 
几 百 个 过 滤 程 序 合并 起 来 ， 流 模块 一 般 是 以 食谱 方式 工作 的 一 一 你 可 以 按照 文档 的 要 求 压 模 
块 ， 和 谈 调 一 样 ， 如 果 仅仅 将 东西 乱 精 精 地 压 信 ， 不 会 得 到 好 的 味道 。( 不 应 该 将 流 与 fopen、 
fwrite 等 使 用 的 标准 MO 流 概念 混淆 ， 两 者 是 完全 无 关 的 。) 

流 特征 是 SUS1 和 SUS2 要 求 的 ， 而 不 是 SUS3 要 求 的 。 将 _XOPEN_VERSION 设 置 为 500 
(表明 它 是 SUS2) 的 Linux 不 支持 流 ， 在 这 点 上 是 不 一 致 的 。 

除了 下 节 的 伪 终 端 和 本 书 中 的 一 些 其 他 讨论 会 用 到 流 之 外 ， 本 书 并 没有 更 全 面 地 讲解 流 
内 容 。 从 SUS 站 点 或 者 Sun 的 站 点 www.sun.com 上 可 以 很 容易 地 找到 与 流 相关 的 内 容 ， 其 中 
Sun 的 站 点 上 提供 了 STREAMS Programming Guide。 


4.10 伪 终 端 


一 般 的 终端 设备 驱动 程序 是 将 进程 与 实际 的 终端 相连 接 ， 如 图 4-5a 所 示 ， 在 该 图 中 用 户 
正在 终端 运行 vi 程序 。 就 交互 (从 ) 进程 (vi) 而 言 ， 擅 终端 驱动 程序 的 作用 和 终端 是 一 样 
的 ， 但 是 伪 终 端 驱动 程序 的 另 一 端 连接 的 是 主 进程 ， 不 是 实际 的 设备 。 这 人 允许 主 进程 将 输入 
添加 到 从 进程 ， 尽 管 输入 来 自 实际 的 终端 ， 并 且 允 许 捕获 从 进程 的 输出 ， 尽 管 输出 数据 是 要 
输出 到 实际 的 终端 。 就 像 平常 工作 一 样 ， 从 进程 可 以 使 用 tcgetattr、tcsetattr 和 其 他 
仅 用 于 终端 的 系统 调用 ， 并 且 它 们 都 如 期 望 的 那样 正确 工作 。 

读者 可 能 会 认为 将 伪 终端 和 进程 相连 接 与 使 用 shell 重 定向 输入 和 输出 是 相似 的 ， 只 是 伪 
终端 使 用 的 是 一 种 终端 ， 而 不 是 管道 。 实 际 上 ，vi 无 法 使 用 管道 进行 工作 : 


日 另外 ， 如果 要 介绍 Corses， 就 必须 介绍 xX， 但 那样 内 容 太 多 了 ， 会 累 死 我 们 。( 这 里 所 说 的 “我 们 ”是 指 
“你 和 我 ) 
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$ vi >tmp 
ex/vi: Vi's standard input and output must be a terminal 





D 连 楼 到 终端 的 ey 驱动 程序 D) 连接 到 进程 的 pty 驱动 程序 
图 4-5 终端 驱动 程序 和 伪 终 端 驱动 程序 


也 许 伪 终 端的 大 多 数 普通 应 用 都 要 通过 te lnetd 服 务 器 来 实现 ， 如 图 4-6 所 示 。 
telnetd 服 务 器 通过 网 络 与 telnet 客 户 端 进行 通信 ， 通 过 伪 终 端 与 Lelnet 用 户 进行 通信 。 
实际 上 ，telnet 会 话 通常 以 shell 开 始 ， 与 实际 的 终端 会 话 相同 ; 在 图 中 ， 因 为 用 户 向 shell 键 
入 了 vi 命令 ， 所 以 vi 正在 运行 。 实 际 上 ， 与 使 用 实际 终端 相 比 ， 现 在 使 用 得 更 广泛 的 是 
telnet 或 者 xterm， 因 为 大 多 数 用 户 是 通过 网 络 与 UNIX 计 算 机 相连 接 的 ， 而 不 是 使 用 直接 
拨号 。( 用 户 可 能 会 拨号 连接 到 网 络 ISP， 但 那 仅仅 是 为 了 上 因特网 。 ) 这 里 并 不 打算 讲述 如 何 
实现 telnetd 服 务 器 ( 见 练习 4.6)， 我 们 仅 讨论 图 中 与 伪 终端 有 关 的 内 容 。 








图 4-6 telnet 服 务 器 (telnetd) 使 用 的 擅 终 端 


在 伪 终 端的 主 侧 ， 主 进程 得 到 了 从 进程 正在 写 和 的 内 容 。 对 于 vi 和 其 他 面向 屏幕 的 程序 ， 
这 个 数据 包含 转 义 序列 (如 清 屏 ) ， 关 于 该 序列 见 4.8 节 。 终 端 驱动 程序 和 伪 终 端 都 不 关心 这 
些 序列 是 什么 。 另 一 方面 ， 控 制 操作 (如 tcsetattr 所 做 的 工作 ) 都 完全 由 驱动 程序 控制 ， 
并 且 到 达 不 了 主 进程 。 因 此 在 图 4-6 中 ，vi 产 生 的 转 义 序列 自始至终 能 获得 运行 在 左边 计算 机 
上 的 telnet 进 程 。 如 果 telnet 进 程 运行 在 全 屏 方式 ， 它 仅 将 转 义 序列 直接 发 送 到 实际 终端 。 
更 常见 的 是 ，telnet 进 程 根本 没 被 连接 到 终端 驱动 程序 ， 而 是 运行 在 Window 系 统 下 。 在 这 
种 情况 下 ， 必 须知 道 如 何 将 转 义 序列 翻译 成 Window 系 统 显示 字符 时 所 要 求 的 方式 。 这 些 程序 
称 作 终 斑 仿真 惟 序 。 因 此 记 住 终端 仿真 程序 和 伪 终 端 是 两 种 不 同 的 东西 ; 第 一 个 处 理 转 义 序 
列 ， 而 第 二 个 代替 了 终端 驱动 程序 ， 以 便 将 1/O 重 新 路 由 到 主 进程 。 
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4.10.1 伪 终 端 库 

因为 本 节 使 用 了 第 5 章 的 一 些 系统 调用 (例如 fork)， 所 以 在 阅读 本 节 之 前 可 能 需要 先 阅 
读 第 5 章 。 

和 其 他 设备 一 样 ， 伪 终端 (从 现在 开始 称 作 “pty”) 是 以 特殊 文件 表示 的 ， 文 件 名 随 系 
统 不 同 而 不 同 。 不 幸 的 是 ， 将 进程 与 pty 连 接 不 像 完 成 下 面 工作 那样 直接 明了 : 

$ vi </dev/pty0l >/dev/pty01 
将 进程 与 pty 连 接 是 很 复杂 的 , 这 是 因为 : 必须 得 到 pty 的 名 字 , 执行 一 些 系统 调用 为 其 做 准备 ， 
并 使 其 成 为 控制 终端 。SUS1 ( 见 1.5.1 节 ) 及 其 之 后 的 标准 对 相关 的 系统 调用 进行 了 标准 化 ， 
但 像 FreeBSD 这 样 的 在 SUS 之 前 出 现 的 系统 采用 了 完全 不 同 的 处 理 方式 。 更 精 的 是 ， 使 用 流 实 
现 pty 系 统 需 要 一 些 额 外 的 步骤 ， 并 且 在 SUS2 和 SUS3 之 间 还 有 一 些 变化 。 

本 书 打算 将 系统 之 间 的 差异 封装 成 一 个 小 的 函数 库 ， 每 个 库 的 名 字 都 以 Pt_ 开 头 。 接 着 
将 使 用 这 个 pt 库 实 现 一 个 记录 / 重 放 应 用 的 例子 。 

下 面 是 使 用 pty 的 总 体 方案 ， 该 方案 包括 9 个 步 队 : 

1) 为 读 和 写 打 开 pty 的 主 侧 。 

2) 准备 访问 pty (下 面 进 行 了 解释 )。 

3) 从 主 侧 的 名 字 或 文件 描述 符 得 到 从 侧 的 名 字 ， 但 不 打开 它 。 

4) 执行 fork 系 统 调用 ( 见 5.5 节 ) 来 创建 子 进程 。 

5) 在 子 进程 中 ， 调 用 setsid ( 见 4.3.2 节 ) 使 子 进程 放弃 它 的 控制 终端 。 

6) 在 子 进程 中 ， 打 开 pty 的 从 侧 ， 使 其 成 为 新 的 控制 终端 。 在 支持 流 的 系统 (如 Solaris ) 
必须 建立 流 。 在 BSD 系 统 上 ， 必 须 使 用 以 下 命令 使 其 成 为 控制 终端 : 

ec_negl( ioctl(fd, TIOCSCTTY) ) 

7) 重新 将 子 进程 的 标准 输入 、 标 准 输出 以 及 错误 文件 描述 符 定向 到 pty。 

8) 执行 execvp 系 统 调用 ( 见 5.3 节 )， 以 便 让 子 进程 运行 所 需要 的 程序 (例如 vi)。( 可 
以 使 用 “exec” 系 统 调用 的 6 个 变 体 之 中 的 任何 一 个 ;在 下 面 的 例子 中 使 用 的 是 execvp。) 

9) 此 时 ， 父 进程 可 以 使 用 第 1 步 得 到 的 文件 描述 符 读 和 写 pty 的 主 侧 。 与 通常 一 样 ( 它 对 
执行 过 程 的 上 下 文 一 无 所 知 )， 子 进程 从 标准 输入 中 读数 据 ， 向 标准 输出 和 标准 错误 输出 写 数 
据 ， 并 且 那 些 文件 描述 符 就 像 向 终端 设备 打开 一 样 工作 。 

以 上 过 程 见 图 4-5b。 

有 3 种 方法 可 以 打开 pty 的 主 侧 (第 1 步 ): 

A. 在 SUS3 系 统 上 只 能 调用 posix_openpt 函 数 ( 见 下 面 内 容 )。 

B. 在 大 多 数 SUS1 和 SUS2 系 统 上 (包括 Solaris 和 Linux )， 打 开 克 隆 文件 /dev/ptmx， 它 会 
提供 一 个 唯一 的 pty ， 尽 管 你 不 知道 该 实际 文件 的 名 字 ， 甚 至 即使 有 一 个 但 这 就 足够 了 ， 因 为 
你 所 需要 的 就 是 这 个 打开 文件 描述 符 。 

C. 在 基于 BSD 的 系统 中 ， 有 一 个 特殊 文件 的 集合 ， 这 些 文件 的 名 字形 如 /dev/ptyXY， 其 
中 X 和 Y 是 数字 或 者 字母 。 必 须 做 的 事情 是 尝试 打开 所 有 的 特殊 文件 ， 直 到 找到 能 够 打开 的 那 
个 为 止 。( 这 不 是 开玩笑 ! ) 

我 们 可 以 使 用 _xoPEN_VERSION 宏 来 区 别 方法 A 和 方法 B， 我 们 将 为 那些 使 用 方法 C 的 系 
统 调用 定义 MASTER_NAME_SEARCH 宏 。 在 第 6 步 (上面 列 出 的 9 个 步骤 中 的 第 6 步 )， 我 们 将 


tr 


774 FAX 





为 那些 需要 建立 流 的 系统 调用 定义 NEED_STREAM_SETUP 宏 ， 为 需要 ioct1 调 用 的 系统 调用 
定义 NEED_TIOCSCTTY 宏 。 下 面 是 pt 库 中 为 Solaris 和 FreeBSD 创 建 这 些 宏 的 代码 ; Linux 不 需 
要 这 些 设置 : 

#if defined(SOLARIS) /* add to this as necessary */ 


#define NEED_STREAM_SETUP 
#endif 


#if defined(FREEBSD) /* add to this as necessary */ 
#define NEED_TIOCSCTTY 
#endif 


#ifndef _XOPEN_UNIX 
#define MASTER_NAME_SEARCH 
#endif 


如 果 你 认为 该 代码 不 能 满足 系统 要 求 ， 那 么 可 以 在 此 基础 上 扩充 代码 。 
下 面 是 posix_openpt 的 对 照 表 ， 仅 在 遵循 SUS3 的 系统 上 可 用 : 





posix_openpt 一 一 打开 pty 


#include <stdlib.h> 
#include <fcntl.h> 


int posix_openpt ( 
int oflag /* O_RDWR optionally ORed with O_NOCTTY */ 


); 
/* Returns file descriptor on success or -1 on error (sets errno) */ 





万 一 进程 已 经 没有 控制 终端 ， 可 以 使 用 标志 0O_NOCTTY 来 防止 主 侧 变 为 控制 终端 。( 回忆 
以 前 讲 过 的 内 容 可 以 知道 ， 第 一 个 为 没有 控制 终端 的 进程 打开 的 第 一 个 终端 设备 将 成 为 控制 
终端 .) 尽管 我 们 的 确 需 要 从 侧 成 为 控制 终端 (第 5 步 )， 但 通常 我 们 并 不 希望 主 侧 成 为 控制 终 
端 ， 因 此 使 用 标志 0_NOCTTY。 

现在 ， 接 着 讨论 pt 库 代 码 ， 它 需要 一 些 未 包含 在 defs.h 中 的 代码 : 


#ifdef _XOPEN_UNIX 
#include <stropts.h> /* for STREAMS */ 
#endif 

#ifdef NEED_TIOCSCTTY 

#include <sys/ttycom.h> /* for TIOCSCTTY */ 


#endif 
所 有 的 pt 库 函 数 都 对 PTINFO 结 构 进行 操作 ， 该 结构 包含 主 侧 文 件 描述 符 、 从 侧 文件 描述 
符 以 及 它们 的 路 径 名 ， 如 果 知道 : 


#define PT_MAX_NAME 20 


typedef struct { 


int pt_fd m; /* master file descriptor */ 
int pt_fd_s; /* slave file descriptor */ 
char pt_name_m[PT_MAX_NAME]; /* master file name */ 
char pt_name_s[PT_MAX_NAME]; /* slave file name */ 

) PTINFO; 


#define PT_GET_MASTER_FD(p) ((p)->pt_fd_m) 
#define PT_GET_SLAVE_FD(p) _( (p)->pt_fd_s) 
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调用 pt 库 的 应 用 程序 使 用 这 两 个 宏 ， 因 为 它们 需要 文件 描述 符 。 

稍 后 要 给 出 的 函数 pt_open_master 可 以 分 配 PTINFO 结 构 ， 并 返回 指向 该 结构 的 指针 ， 
以 便 其 他 库 函 数 使 用 该 指针 ， 就 像 标准 I/O 库 使 用 FILBE 结 构 一 样 。 从 内 部 讲 ， 
pt_open_master 调 用 find_and_open_master 实 现 了 第 1 步 ， 使 用 了 前 面 概述 的 3 个 方 
法 中 的 一 个 : 


#if defined (MASTER_NAME_SEARCH) 
#define PTY_RANGE \ 

"012345678 9ABCDEFGHIJKLMNOPQRSTUVWXYZabcde fghi jklmnopqrstuvwxyz" 
#define PTY_PROTO */dev/ptyxy" 


#define PTY_X 8 
define PTY_Y 9 
fdefine PTY_MS 5 /* replace with 't' to get slave name */ 


#endif /* MASTER_NAME_SEARCH */ 


static bool find_and_open_master(PTINFO *p) 
$ 
#if defined (_XOPEN_UNIX) 
#if _XOPEN_VERSION >= 600 
p->pt_name_m{0] = '\0'; /* don't know or need name */ 
ec_neg1( p->pt_fd_m = posix_openpt (O_RDWR | O_NOCTTY) ) 
telse 
strcpy(p->pt_name_m, */dev/ptmx"); /* clone device */ 
ec_negl( p->pt_fd_m = open(p->pt_name_m, O_RDWR | O_NOCTTY) ) 


fendif 

#elif defined (MASTER_NAME_SEARCH) 
int i, j; 
char proto[] = PTY_PROTO; 


if (p->pt_fdm -1) { 
(void) close (p->pt_fd_m) ; 
p->pt_fd_m = -1; 





$ 
for (i = 0; i < sizeof(PTY_RANGE) - 1; i++) { 
proto[PTY_X] = PTY_RANGE[i]; 
proto[PTY_Y] = PTY_RANGE[0]; 
if (access(proto, F_OK) == -1) { 
if (errno == ENOENT) 
continue; 
EC_FAIL 
} 


for (j = 0; j < sizeof(PTY_RANGE) - 1; j++) { 
proto[PTY_Y] = PTY_RANGE[3]; 
if ((p->pt_fd_m = open(proto, O_RDWR)) == -1) { 
if (errno == ENOENT) 
break; 





} 
else ( 
strcpy(p->pt_name_m, proto); 
break; 
} 
} 





if (p->pt_fd_m != -1) 
break; 
} 
if (p->pt_fd_m == -1) { 


errno = EAGAIN; 
EC_FAIL 
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J 
felse 
errno = ENOSYS; 
EC_FAIL 
fendi 
return true; 


EC_CLEANUP_BGN 
return false; 
EC_CLEANUP_END 
) 
find_and_open_master 中 的 大 部 分 代码 是 用 于 思春 的 名 字 查 找 一 多 达 3844 个 名 
字 ! 为 了 使 速度 稍微 快 一 点 ， 我 们 使 用 了 access ( 见 3.8.1 节 )， 用 它 检 测 形 如 /dev/ptyX0 的 
每 个 名 字 是 否 存在 ， 如 果 不 存在 ， 就 不 必 查 找 /dev/ptyX1、/dev/ptyX2 和 该 系列 中 的 其 他 59 个 
名 字 了 ， 直 接 移 到 下 一 个 X。 
第 2 步 是 访问 pty。 在 SUS 系 统 上 ， 必 须 调用 grantpt 来 访问 从 侧 ， 并 且 当 pty 被 锁定 时 ， 


必须 使 用 un1ockpt 解 锁 : 
grantpt 一 一 取得 Pty 从 面 的 访问 权限 
#include <stdlib.h> 


int grantpt ( 
int fd /* file descriptor */ 


ve 
/* Returns 0 on success or -1 on error (sets errno) */ 


unlockpt 一 一 解锁 pty 
#include <stdlib.h> 


int unlockpt ( 
int fd /* file descriptor */ 


) 
/* Returns 0 on success or -1 on error (sets errno) */ 





步骤 3 是 为 了 得 到 从 侧 的 名 字 。SUS1 系 统 具 有 此 功能 的 系统 调用 : 
ptsname 一 一 得 到 pty 从 面 的 名 字 


#include <stdlib.h> 


char *ptsname ( 
int fd /* file descriptor */ 


) 7 
/* Returns name or NULL on error (errno not defined) */ 





在 BSD 系 统 上 (定义 了 MASTER_NAME_SEARCH)， 通 过 以 “t” 替 换 /dev/ptyXY 中 的 “p” 
可 以 从 主 侧 的 名 字 得 到 该 名 字 。 即 如 果 发 现 可 以 用 /dev/ptyK4 打 开 主 侧 ， 则 相应 从 侧 的 名 字 即 
为 /dev/ttyK4。 

下 面 是 函数 pt_open_master 的 代码 ， 该 函数 调用 了 前 面 讨论 的 步骤 1 给 出 的 函数 
find_and_open_master， 接 着 进行 了 步 又 2 和 步 允 3， 以 指定 的 从 侧 结束 ， 但 该 从 侧 未 打开 : 


PTINFO *pt_open_master (void) 
{ 
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PTINFO *p = NULL; 
char *s; 
ec_null( p = calloc(1, sizeof (PTINFO)) ) 
p->pt_fd_m = 
p->pt_fd_s = 
ec_false( find_and_open_master(p) ) 
#ifdef _XOPEN_UNIX 
ec_negl( grantpt (p->pt_fd_m) ) 
ec_negl( unlockpt (p->pt_fd_m) ) 
ec_null( s = ptsname(p->pt_fd_m) ) 
if (strlen(s) >= PT_MAX_NAME) { 
errno = ENAMETOOLONG; 
EC_FAIL 





} 


strcpy(p->pt_name_s, s); 
#elif defined (MASTER_NAME_SEARCH) 
strcpy (p->pt_name_s, p->pt_name_m); 
p->pt_name_s[PTY_MS] = 't'; 
telse 
errno = ENOSYS; 
EC_FAIL 
#endif 
return p; 


EC_CLEANUP_BGN 
if (p != NULL) { 
(void) close (p->pt_fd_m) ; 
(void) close (p->pt_fd_s) ; 
free(p); 





} 

return NULL; 
EC_CLEANUP_END 
} 


第 4 步 是 调用 fork 创 建 子 进程 ， 该 步 又 是 通过 使 用 库 的 程序 完成 的 一 因为 没有 库 函 数 能 


够 完成 该 功能 。 

第 5 步调 用 子 进程 的 setsid ( 见 4.3.2 节 )， 使 子 进程 放弃 它 的 控制 终端 ， 因 为 需要 pty 成 
为 控制 终端 。 第 6 步 打开 从 侧 ， 也 在 子 进程 完成 ， 我 们 已 经 有 了 该 从 侧 的 名 字 。 
Pt_open_s1lave 完 成 了 这 两 个 步骤 的 工作 : 


bool pt_open_slave(PTINFO *p) 
{ 
ec_negl( setsid() ) 
if (p->pt_fd_s != -1) 
ec_negl( close(p->pt_fd_s) ) 
ec_neg1( p->pt_fd_s = open(p->pt_name_s, O_RDWR) ) 
#if defined(NEED_TIOCSCTTY) 
ec_negl( ioctl(p->pt_fd_s, TIOCSCTTY, 0) ) 
#endif 
#if defined (NEED_STREAM_SETUP) 
ec_negl( ioctl(p->pt_fd_s, I_PUSH, “ptem*) ) 
ec_negl( ioctl (p->pt_fd_s, I_PUSH, “ldterm") ) 
endif 
7. 
Changing mode not that important, so don't fail if it doesn't 
work only because we're not superuser. 
4 大 
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if (fchmod(p->pt_fd_s, PERM_FILE) == -1 && errno != EPERM) 
EC_FAIL 
return true; 


EC_CLEANUP_BGN 

return false; 

EC_CLEANUP_END 

H 

同样 ， 也 必须 在 子 进程 中 调用 pt_open_slave， 不 能 在 父 进程 中 进行 。( 一会儿 我 们 能 
看 到 一 个 示例 .) 定义 了 NEED_STRERAM_SETUP 的 系统 ， 例 如 Solaris， 需 要 在 流 上 压 入 两 个 
模块 :ptem 和 1dterm， 前 者 是 伪 终 端 仿真 程序 ， 后 者 是 普通 的 终端 模块 。。 (ioct1 系 统 
调用 和 I_PUSH 命 令 已 经 被 标准 化 ， 而 不 是 用 于 创建 pty 的 模块 名 . ) 

在 pt_open_slave 的 结尾 ， 我 们 改变 了 pty 的 模式 ， 因 为 在 一 些 系 统 上 可 能 没有 适合 的 
权限 。 然 而 ， 因 为 进程 的 用 户 ID 可 能 没有 所 有 权 (与 具体 的 系统 相关 )， 所 以 调用 fchmod 
( 见 3.7.1 节 ) 可 能 会 失败 ， 在 这 种 情况 下 ， 我 们 还 是 希望 能 继续 运行 。 

步骤 ?7、8 和 9 没有 使 用 pt 库 ， 使 用 的 是 第 5、6 章 介绍 的 系统 调用 。 在 本 节 末 尾 的 示例 中 将 
给 出 这 部 分 代码 。 

HF (M) 进程 和 父 (E) 进程 独立 运行 时 ， 在 开始 读 写 第 9 步 的 pty 之 前 ， 父 进程 必须 
保证 子 进程 已 经 完全 建立 。 因 此 ，pt 库 中 包含 一 个 父 进程 使 用 的 调用 ， 该 调用 直到 安全 运行 
才 返 回 。 

bool pt_wait_master(PTINFO *p) 


{ 
fd_set fd_set_write; 


FD_ZERO(&fd_set_write); 

FD_SET(PT_GET_MASTER_FD(p), &fd_set_write); 

ec_negl( select (PT_GET_MASTER_FD(p) + 1, NULL, &fd_set_write, NULL, 
NULL) ) 

return true; 


EC_CLEANUP_BGN 
return false; 

EC_CLEANUP_END 

} 


我 们 所 能 做 的 就 是 使 用 select (14.2.34) 等 待 ， 直 到 pty 可 读 。 
下 一 个 函数 是 pt_close_master ， 当 不 再 需要 pty 时 ， 父 进程 会 调用 它 来 关闭 文件 描述 


符 ， 并 释放 PTINFO 结 构 。 


bool pt_close_master(PTINFO *p) 
{ 
ec_negl( close(p->pt_fd_m) ) 
free(p); 
return true; 


EC_CLEANUP_BGN 
return false; 

EC_CLEANUP_END 

} 


O 为 了 在 Solaris 系 统 (也 可 能 是 其 他 执行 流 的 系统 ) 上 读 取 这 些 流 ， 可 以 执行 man Ptem 和 man ldterm. 
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还 有 一 个 pt_close_slave， 但 通常 并 不 使 用 它 ， 因 为 第 8 步 中 另 一 个 程序 已 经 覆盖 了 子 
进程 。 同 样 ， 我 们 重 定向 了 文件 描述 符 ， 所 以 此 时 pty 的 子 进程 的 末端 是 以 标准 文件 描述 符 
(0、1 和 2) 表示 的 ， 当 进程 终止 时 ， 这 些 文件 描述 符 几 平 总 能 自动 关闭 。 代 码 如 下 : 


bool pt_close_slave(PTINFO *p) 
{ 





(void)close(p->pt_fd_s); /* probably already closed */ 
free(p); 
return true; 


J 


如 果 你 发 现 自己 的 代码 中 调用 了 pt_close_slave， 那 么 你 的 代码 可 能 出 错 了 。 
注意 pt_close_master 和 pt_close_slave 都 释放 了 PTINFO 结 构 。 本 来 就 应 该 如 此 ， 
为 当 执行 这 两 个 函数 时 ， 父 进程 和 子 进程 都 分 配 了 该 结构 。 阅 读 5.5 节 中 对 fork 的 解释 后 会 
更 加 明白 。 
将 以 上 内 容 综合 起 来 ， 可 以 得 到 下 面 pt 库 调 用 的 总 体 框架 : 


PTINFO *p = NULL; 
bool ok = false; 





ec_null( p = pt_open_master() ) /* Steps 1, 2, and 3 */ 
switch (fork()) { /* Step 4 */ . 
case 0: 
ec_false( pt_open_slave(p) ) /* Steps 5 and 6 */ 
y 
Redirect fds and exec (not shown) - steps 7 and 8 
s7 
break; 
case -1: 
EC_PAIL 


) 
ec_false( pt_wait_master(p) ) /* Synchronize before step 9 */ 
J 

Parent (master) now reads and writes pty as desired - step 9 
* 
ok = true; 
EC_CLEANUP 


EC_CLEANUP_BGN 
if (p != NULL) 
(void) pt_close_master (p); 
je 
Other clean-up goes here 
sf 
exit(ok ? EXIT_SUCCESS : EXIT_FAILURE); 
EC_CLEANUP_END 
这 就 是 所 讨论 的 应 用 程序 的 样子 。 
4.10.2 记录 和 重 放 示 例 


下 面 将 使 用 pty 建 立 记录 / 重 放 系统 ， 它 能 记录 命令 的 输出 然后 回放 所 记录 的 输出 ， 就 好 像 
命令 正在 运行 一 样 。 即 不 仅 屏幕 按 原样 写 ， 而 且 以 同样 的 速度 重 放 。 为 了 说 明 我 的 意思 ， 下 
面 是 显示 时 间 、 等 待 5 秒 并 重新 显示 时 间 的 脚本 : 


$ cat >scripti 
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date 

sleep 5 

date 

$ chmod +x scriptl 

$ scriptl 

Wed Nov 6 10:46:31 MST 2002 /5 second pause] 

Wed Nov 6 10:46:36 MST 2002 

当然 ， 如 从 时 间 所 看 到 的 那样 ， 在 date 的 第 1 次 执行 和 第 2 次 执行 之 间 有 5 秒 暂停 。( 括 号 
中 的 注释 不 是 输出 的 一 部 分 。) 

但 是 如 果 只 是 在 文件 上 捕获 输出 ， 并 显示 该 文件 ， 那 么 文件 中 的 文本 会 以 非常 快 的 速度 
显示 。 当 然 ， 文 件 中 时 间 完全 是 date 命 令 写 的 时 间 ， 但 是 在 cat 命 令 打印 输出 时 没有 暂停 : 

$ scriptl >tmp [5 second pause] 

$ cat tmp 

Wed Nov 6 10:55:24 MST 2002 [no pause] 

Wed Nov 6 10:55:29 MST 2002 
不 过 ， 这 不 是 我 们 所 需要 的 。 我 们 需要 的 是 记录 输出 ， 以 便 它 重 放 的 速度 能 和 记录 一 样 ， 记 
录 时 我 们 将 采用 下 面 名 为 record 的 命令 (record 命 令 的 -p 选 项 可 以 重 放 记录 ): 


$ record scriptl 
Wed Nov 6 10:57:18 MST 2002 [5 second pause] 
Wed Nov 6 10:57:23 MST 2002 

$ record -p 

Wed Nov 6 10:57:18 MST 2002 [5 second pause] 
Wed Nov 6 10:57:23 MST 2002 


不 能 在 此 页 上 查看 到 它 ， 但 是 在 显示 第 1 行 之 后 ， 显 示 第 2 行 之 前 ， 有 5 秒 暂停 ， 该 速度 与 
记录 输出 的 速度 相同 。 

因此 ，record 最 低 程 度 上 需要 完成 的 事情 是 保存 事件 ， 显 示 字符 的 时 间 ， 以 使 重 放 部 分 
知道 以 怎样 的 速度 将 字符 写 到 标准 输出 。 并 且 也 想 让 它 用 交互 方式 完成 该 工作 ， 因 此 不 能 通 
过 管道 捕获 输出 一 一 因为 感 兴趣 的 命令 ， 如 vi、emacs 和 其 他 全 屏 应 用 程序 只 能 工作 在 终端 ， 
所 以 必须 用 pty 建 立 命令 。 记 录 程 序 、 记 录 以 及 所 记录 的 命令 如 图 4-7 所 示 那 样 连接 。 无 论 
record 从 标准 输入 读 取 了 什么 ， 它 都 会 写 到 pty， 并 且 无 论 从 pty 读 了 什么 ， 它 也 都 会 写 到 标 
准 输出 和 事件 的 文件 。 











图 4-7 用 script1 实 现 记 录 交 互 


首先 ， 我 会 给 出 数据 结构 和 函数 ， 其 中 函数 把 命令 的 输出 记录 成 了 一 系列 事件 。 然 后 给 
出 读 事 件 的 重 放 函 数 ， 该 函数 会 在 合适 的 时 间 显 示 事件 中 的 数据 。 因 为 命令 实际 上 没有 运行 、 
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所 以 重 放 不 包含 pty。 最 后 ， 我 会 给 出 记录 程序 ， 它 遵循 了 前 一 节 介绍 的 使 用 了 pt 库 的 框架 。 
每 次 被 记录 的 进程 写 数据 时 ，pty 的 主 侧 都 会 读 取 该 数据 ， 并 将 其 当 作 事件 对 待 。pty 仅 保 
存 记 录 开 始 以 来 的 相对 时 间 和 event 结 构 中 的 数据 长 度 。 接 着 向 名 为 recording.tmp 的 文件 中 
写 人 该 结构 和 数据 本 身 。 图 4-8 显 示 了 该 文件 中 的 三 个 此 类 事件 。 
recording.tmp 


图 4-8 记录 文件 的 结构 
下 面 是 event 结 构 ， 以 及 读 写 数据 所 需 的 全 局 文件 描述 符 和 用 于 文件 名 和 缓冲 区 大 小 的 宏 : 


define EVFILE "recording. tmp" 
#define EVBUFSIZE 512 





struct event { 
struct timeval e_time; 
unsigned e_datalen; 

ye 

static int fd_ev = -1; 


timeval 结 构 在 1.7.1 节 中 介绍 过 了 。 
记录 程序 使 用 ev_creat 打 开 正 在 记录 的 文件 (如果 需要 的 话 创建 该 文件 ), ev_write 


向 文件 中 写 事件 ， 并 使 用 ev_close 关 闭 文件 : 
即使 采用 了 多 次 调用 write，writeal1 也 是 写 满 缓冲 区 的 简单 方式 ;writeall 见 2.9 节 。 


static bool ev_creat (void) 
{ 
ec_negl( fd_ev = open(EVFILE, O_WRONLY | O_CREAT | O_TRUNC, 
PERM_FILE) ) 
return true; 


EC_CLEANUP_BGN 
return false; 
EC_CLEANUP_END 
d 
static bool ev_write(char *data, unsigned datalen) 


t 
struct event ev = { {0} }; 


get_rel_time(&ev.e_time); 
ev.e_datalen = datalen; 

ec_negl( writeall(fd_ev, sev, sizeof (ev)) ) 
ec_negl( writeall(fd_ev, data, datalen) ) 
return true; 


EC_CLEANUP_BGN 
return false; 

EC_CLEANUP_END 

} 


static void ev_close(void) 


{ 


(void) close (fd_ev) ; 
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fid_ev = -1; 
} 


函数 get_rel_time 完 成 的 工作 是 : 调用 gettimeofday ( 见 1.7.1 节 ) 得 到 当前 时 间 ， 
使 用 另 一 个 函数 timeval_subtract 从 开始 时 间 (第 一 次 调用 保存 它 ) 减 去 当前 时 间 。 


static void get_rel_time(struct timeval *tv_rel) 
{ 

static bool first = true; 

static struct timeval starttime; 

struct timeval tv; 


if (first) { 

first = false; 

(void) gettimeofday(&starttime, NULL); 
i 
(void) gettimeofday(&tv, NULL); 
timeval_subtract(&tv, astarttime, tv_rel); 


) 


static void timeval_subtract (const struct timeval *x, 
const struct timeval *y, struct timeval *diff) 


{ 
y->tv_sec || x->tv_usec >= y->tv_usec) { 





if (x->tv_sec 
diff->tv_sec = x->tv_sec - y->tv_sec; 
diff->tv_usec = x->tv_usec - y->tv_usec; 


7 


else { 
diff->tv_sec = x->tv_sec - 1 - y->tv_sec; 
diff->tv_usec = 1000000 + x->tv_usec - y->tv_usec; 


} 


注意 ， 函 数 timeval_subtract 假 定 x>=y。 
以 上 是 创建 记录 所 需要 的 所 有 服务 函数 。 重 放 记 录 需 要 一 个 有 如 下 功能 的 函数 : 打开 记 


录 的 文件 ， 读 取 event 结 构 和 在 文件 中 紧 随 其 后 的 数据 : 


static bool ev_open(void) 

{ 
ec_negl( fd_ev = open(EVFILE, O_RDONLY) ) 
return true; 


EC_CLEANUP_BGN 
return false; 

EC_CLEANUP_END 

d 


static bool ev_read(struct event *ev, char *data, unsigned datalen) 
{ 


ssize_t nread; 


ec_negl( nread = read(fd_ev, ev, sizeof(*ev)) ) 
if (nread != sizeof(*ev)) { 

errno = EIO; 

EC_FAIL 


) 
ec_negl( nread = read(fd_ev, data, ev->e_datalen) ) 
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ev->e_datalen) { 
EIO; 


if (nread 
errno 
EC_FAIL 





} 
return true; 


EC_CLEANUP_BGN 
return false; 

EC_CLEANUP_END 

} 


另外 一 个 事情 是 : 一 旦 重 放 程序 有 了 事件 ， 在 显示 该 事件 之 前 需要 等 待 合适 的 时 间 。 
这 是 实时 重 放 和 仅仅 转 储 数 据 之 间 的 基本 区 别 。 函 数 ev_sleep 从 event 结 构 中 获得 时 间 
计算 等 待 的 时 间 ， 接 着 休眠 该 时 间 间 隔 。 当 timeval 以 秒 和 微妙 保存 该 时 间 时 ， 对 于 以 秒 
保存 的 可 以 用 标准 C 函 数 中 的 sleep， 对 于 用 微 秒 保存 的 可 以 用 usleep 系 统 调用 ( 见 9.7.3 
节 )。 


static bool ev_sleep(struct timeval *tv) 


{ 


struct timeval tv_rel, tv_diff; 


get_rel_time(&tv_rel) ; 
if (tv->tv_sec > tv_rel.tv_sec || 
(tv->tv_sec == tv_rel.tv_sec && tv->tv_usec >= tv_rel.tv_usec)) ( 
timeval_subtract(tv, &tv_rel, &tv_diff); 
(void) sleep (tv_diff.tv_sec) ; 
ec_negl( usleep(tv_diff.tv_usec) ) 
) 
/* else we are already running late */ 
return true; 


EC_CLEANUP_BGN 
return false; 

EC_CLEANUP_END 

} 


这 就 是 需要 记录 和 重 放 的 所 有 事件 。 假 设 已 经 完成 了 记录 ， 下 面 是 重 放 的 函数 : 


static bool playback (void) 
{ 
bool ok = false; 
struct event ev; 
char buf (EVBUFSIZE]; 
struct termios tbuf, tbufsave; 


ec_negl( tcgetattr(STDIN_FILENO, &tbuf) ) 
tbufsave = tbuf 
tbuf.c_lflag &= ~ECHO; 
ec_negl({ tcsetattr(STDIN_PILENO, TCSAFLUSH, &tbuf) ) 
ec_false( ev_open() ) 
while (true). { 

ec_false( ev_read(&ev, buf, sizeof(buf)) ) 

if (ev.e_datalen == 0) 

break; 


ev_sleep(&ev.e_time) ; 
ec_negl( writeall(STDOUT_FILENO, buf, ev.e_datalen) 


} 
ec_negl( write(STDOUT_FILENO, *\n", 1) ) 
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ok = true; 
EC_CLEANUP 


EC_CLEANUP_BGN 
(void) tedrain (STDOUT_FILENO) ; 
(void)sleep(1); /* Give the terminal a chance to respond. */ 
(void) tcsetattr(STDIN_FILENO, TCSAFLUSH, &tbufsave) ; 
ev_close(); 
return ok; 

EC_CLEANUP_END 

$ 


在 该 函数 中 ， 事 件 的 读 取 和 向 STDOUT_FILENO 写 人 都 非常 直接 明了 。 写 入 终端 的 某 些 转 
义 序列 会 引起 终端 响应 ， 但 是 在 我 们 不 关心 重 放 期 间 的 响应 时 (无 论 响应 的 内 容 如 何 都 已 经 
捕获 在 记录 中 ) ， 我 们 必须 关闭 回 送 ， 以 便 保证 响应 不 会 与 输出 混淆 。 在 结尾 ， 我 们 调用 
tcdrain 以 发 送 最 后 的 输出 ， 等 待 ! 秒 钟 时间 以 使 终端 对 其 进行 处 理 ， 然 后 在 恢复 终端 的 属性 
时 ， 刷 新 了 所 有 剩余 的 和 输入。 函数 tcgetattr、tcsetattr 和 tcdrain 见 4.5.1 节 和 4.6 节 。 

现在 ， 我 们 可 以 使 用 前 一 节 给 出 的 pt 库 和 “ev” 程 序 进行 记录 了 。( 你 可 能 需要 复习 一 下 
前 面 一 节 结 尾 所 讲 的 框架 。) 下 面 分 儿 块 来 讨论 main 函 数 ; 开头 如 下 : 

int main(int argc, char *argv[]) 

{ 


bool ok = false; 
PTINFO *p = NULL; 


if (argc < 2) ¢ 
fprintf(stderr, "Usage: record cmd ...\n record -p\n"); 
exit (EXIT_FAILURE) ; 
) 
if (stremp(argv(1], "-p") == 0) ( 
playback () ; 
ok = true; 
EC_CLEANUP 
) 


如 果 使 用 -p 选 项 调用 该 函数 ， 那 么 它 将 只 调用 已 经 讨论 过 的 playback 函 数 并 退出 。 否 
则 ， 记 录 时 遵循 如 下 框架 : 


ec_null( p = pt_open_master() ) 
switch (fork()) ( 
case 0: 
ec_false( pt_open_slave(p) ) 
ec_false( exec_redirected(argv[1], &argv{1], PT_GET_SLAVE_FD(p), 
PT_GET_SLAVE_FD(p), PT_GET_SLAVE_FD(p)) ) 
break; 
case -1: 
EC_FAIL 
人 
ec_false( ev_creat() ) 
ec_false( pt_wait_master(p) ) 


因为 打算 到 第 5 章 和 第 6 章 才 一 起 讨论 与 重 定向 文件 描述 符 和 执行 命令 有 关 的 内 容 ， 因 此 
这 里 将 这 些 内 容 都 放 在 了 函数 exec_redirected 中 。 下 面 将 给 出 exec_redirected 的 代 
码 ， 但 不 对 其 进行 解释 。 如 果 需 要 ， 可 以 先 阅读 那些 章节 ， 回 头 再 来 看 这 个 函数 的 代码 。 

目前 ，main 中 的 代码 已 经 到 了 第 9 步 (前 一 节 介绍 了 该 步骤 )， 该 步 需要 读 写 pty 主 侧 的 文 
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件 描述 符 。 记 住 主 命令 (script1、vi 或 者 其 他 命令 ) 已 经 在 运行 了 ， 并 且 可 能 会 因为 
read 等 待 一 些 认为 是 终端 的 输入 ， 而 使 主 命令 阻塞 。 下 面 是 main 函 数 的 剩余 部 分 : 


te_setraw(); 

while (true) { 
fd_set fd_set_read; 
char buf [EVBUFSIZE] ; 
ssize_t nread; 


FD_ZERO(&£d_set_read) ; 
FD_SET(STDIN_FILENO, &fd_set_read); 
FD_SET(PT_GET_MASTER_FD(p), &f£d_set_read) ; 
ec_negl( select (FD_SETSIZE, &fd_set_read, NULL, NULL, NULL) ) 
if (FD_ISSET(STDIN_FILENO, &fd_set_read)) { 
ec_negl( nread = read(STDIN_FILENO, &buf, sizeof (buf)) ) 
ec_negl( writeall(PT_GET_MASTER_FD(p), buf, nread) ) 


if (FD_ISSET(PT_GET_MASTER_FD(p), &£d_set_read)) ( 
if ((nread = read(PT_GET_MASTER_FD(p), &buf, 
sizeof(buf))) > 0) { 
ec_false( ev_write(buf, nread) ) 
ec_negl( writeall(STDOUT_FILENO, buf, nread) ) 


} 
else if (nread == 0 || (nread == -1 && errno == EIO)) 
break; 
else 
EC_FAIL 
} 
} 
ec_false( ev_write(NULL, 0) ) 


fprintf(stderr, 
"EOF or error reading stdin or master pseudo-terminal; exiting\n"); 


ok = true; 
EC_CLEANUP 


EC_CLEANUP_BGN 
if (p != NULL) 

(void) pt_close_master (p); 
te_restore(); 
ev_close 
printf ("\n"); 
exit(ok ? EXIT_SUCCESS : EXIT_FAILURE); 

EC_CLEANUP_END 
) 

“对 main 函 数 的 最 后 部 分 的 解释 如 下 : 

因为 record 大 多 用 于 面向 屏幕 的 命令 ， 所 以 我 们 使 用 tc_setraw ( 见 4.5.10 节 ) 将 终 
端 设置 为 原始 模式 。 清 除 代码 时 ， 通 过 tc_restore 恢 复 了 属性 。 因 为 我 们 只 是 想 关闭 
回 送 ， 所 以 没有 使 用 playback 中 的 那些 函数 。 

。record 有 两 个 输入 : 用 户 输入 的 内 容 和 pty 返 回 的 内 容 。 如 上 节 图 4-5 所 示 。record 使 
用 select 等 待 ， 直 到 两 个 输入 中 的 一 个 有 了 一 些 数据 ， 接 着 处 理 这 些 数据 ， 并 循环 返 
回 到 select。 注 意 因 为 select 需 要 改变 位 来 报告 结果 ， 所 以 record 每 次 都 需要 建立 
fd_set_read。 

。 当 到 达 文 件 结尾 ， 或 者 出 现 来 自 pty 的 而 不 是 record 的 标准 输入 LO 错误 时 ， 将 退出 循 
环 。 别 忘 了 ， 毕 竟 到 了 主 命令 ， 而 不 是 我 们 决定 做 什么 的 时 间 。 文 件 结尾 或 1O 错 误 意 
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味 着 pty 的 从 侧 已 经 关闭 了 它 所 有 的 文件 描述 符 ; 即 主 命令 已 经 终止 。 具 体 用 哪 一 个 指 . 
示 项 要 取决 于 所 使 用 的 系统 ， 因 此 我 们 任 取 了 两 者 之 一 。 
最 后 给 出 exec_redirected 的 代码 ， 若 你 已 经 阅读 了 第 6 章 ， 那 么 一 看 就 能 明白 : 
bool exec_redirected(const char *file, char *const argv[], int fdistdin, 
int fd_stdout, int fd_stderr) 
€ 
if (fd_stdin != STDIN_FILENO) 
ec_negl( dup2(fd_stdin, STDIN_FILENO) ) 
if (fd_ stdout != STDOUT_FILENO) 
ec_negl( dup2(fd_stdout, STDOUT_FILENO) ) 
if (fd_stderr != STDERR_FILENO) 
ec_negl( dup2(fd_stderr, STDERR_FILENO) ) 
if (fd_stdin != STDIN_FILENO) 
(void) close(fd_stdin) ; 
if (fd_stdout != STDOUT_FILENO) 
(void) close (fd_stdout) ; 
if (fd_stderr != STDERR_FILENO) 
(void) close(fd_stderr) ; 
ec_negl( execvp(file, argv) ) 


EC_CLEANUP_BGN 
return false; 

EC_CLEANUP_END 

) 


在 书 中 ， 很 难 真正 地 理解 record 的 活动 一 -通过 视频 会 使 其 功能 更 加 明了 。 自 己 亲手 做 
一 做 ! 当 以 与 原 记 录 相同 的 效果 重 放 记录 时 一 一 就 像 观 看 键盘 上 的 克隆 一 样 ， 你 一 定 会 满意 的 。 


练习 


4.1 修改 get1ln 以 返回 以 EOF 结 尾 的 行 ， 如 4.2.1 节 所 讨论 的 那样 

4.2 实现 Bfdopen ， 如 4.2.1 节 所 讨论 的 那样 。 

4.3 实现 一 个 stty 命 令 的 简化 版 本 ， 仅 输出 当前 终端 的 状态 。 

4.4 实现 一 个 stty 命 令 的 版 本 ， 仅 允许 用 户 规定 10 个 最 常用 的 操作 数 ， 你 必须 决定 这 10 个 操作 数 。 

4.5 实现 一 个 简单 的 屏幕 编辑 器 。 决 定 一 个 允许 合理 编辑 ， 但 不 引起 过 多 警报 的 函数 的 小 选择 集 。 在 内 
存 中 进行 文本 编辑 ， 使 用 Curses (或 者 等 效 函数 ) 更 新 屏幕 ， 读 取 键 盘 。 如 果 可 以 ， 使 用 联机 资料 
宏 写 一 些 文档 。 

4.6 实现 telnetd 服 务 器 。 对 于 它 应 该 做 到 的 完整 细节 见 [RFC854]。 但 是 ， 在 本 次 练习 中 ， 只 要 能 从 正 
在 运行 telnet 的 另 一 台 机 器 上 连接 就 可 以 实现 要 求 ， 接 着 通过 你 的 服务 器 ， 执 行 一 些 面向 行 的 命令 
和 vi 或 者 emacs 。 


第 5 章 ”进程 和 线程 


5.1 概述 


现在 离开 输入 和 输出 这 个 主题 ， 开 始 研究 UNIX 的 多 任务 特性 。 本 章 将 讲解 使 用 exec、 
fork、wait 以 及 相关 的 系统 调用 来 调用 程序 和 进程 的 技术 。 下 一 章 将 介绍 使 用 管道 进行 简 
单 的 进程 间 通 信 。 第 7 章 和 第 8 章 将 继续 介绍 更 高 级 的 进程 间 通 信 机 制 。 

本 主题 的 介绍 是 通过 实现 一 个 相当 完整 的 命令 解释 器 或 shell 来 组 织 的 。 从 一 个 很 少 使 用 
的 、 功 能 有 限 的 shell 开 始 ， 然 后 逐步 地 增加 特性 ， 直 到 在 下 一 章 能 够 实现 一 个 可 以 处 理 IO 重 
定向 、 管 道 、 后 台 进程 、 引 用 参数 和 环境 变量 的 shell 为 止 。 


5.2 环境 


首先 讨论 大 多 数 UNIX 用 户 都 已 熟知 的 shell 级 别 的 环境 。 当 执行 一 个 UNIX 程 序 时 ， 程 序 
会 从 调用 它 的 进程 处 接收 到 两 个 数据 集 : 参数 和 环境 。 对 于 C 程 序 而 言 ， 它 们 形式 上 都 是 字符 
指针 的 数组 ， 除 了 数组 的 最 后 一 个 字符 指针 指向 一 个 NULL 终 止 字符 串 外 。 最 后 一 个 指针 是 
NULL， 参 数 的 长 度 也 会 被 传递 。 其 他 语言 使 用 的 是 不 同 的 接口 ， 但 是 这 里 仅 关注 C 和 C++。 
C 或 C++ 程序 以 下 面 两 种 方式 之 一 开始 : © 


main 一 一 C 或 C++ 程序 人 口 点 


int main( 
int argc, /* argument count */ 





char *argv(] /* array of argument strings */ 


) 


int main(void) 





计数 参数 argc 不 包括 终止 argv 数 组 的 NULL 指 针 。 如 果 程 序 没 有 使 用 参数 ， 那 么 可 以 省 
赂 计数 参数 和 数组 ， 如 第 二 种 形式 一 样 。 本 书 中 已 经 给 出 了 这 两 种 形式 的 示例 。 

另外 ， 全 局 变量 environ 指 向 的 是 环境 字符 串 数组 ， 该 数组 也 是 以 NULL 结 束 的 〈 没 有 相 
关 的 计数 变量 ): 


environ 一 环境 字符 审 


extern char **environ; /* environment array (not in any header) */ 


每 个 参数 字符 串 本 质 上 都 可 以 是 任意 符号 ， 只 要 是 以 NULL 结 束 的 就 可 以 。 环 境 字符 串 的 
限制 更 多 一 些 ， 每 个 环境 字符 串 都 要 具有 name=value 的 形式 ， 并 且 每 个 值 后 都 应 带 有 NULL 终 
止 符 。 当 然 名 字 不 包括 “=” 这 个 字符 。 | 

在 5.3 节 中 将 讲述 环境 是 怎样 被 传递 给 main 的 (使 environ 被 设置 ) ; 在 这 里 只 讨论 从 
environ 中 检索 值 和 修改 environ 的 问题 。 


日 一 些 实现 允许 有 第 三 个 包含 环境 变量 的 字符 囊 数组 参数 ， 但 这 既 不 标准 也 不 必要 
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获得 环境 的 方法 之 一 是 直接 访问 environ， 代 码 如 下 : 


extern char **environ; 


int main(void) 
{ 
int i; 
for (i = 0; environ[i] != NULL; i++) 
print£("ts\n", environ[i]); 
exit (EXIT_SUCCESS) ; 
) 


下 面 是 Solaris 中 输出 的 部 分 结果 (为 了 节约 空间 ， 省 略 了 其 余 的 输出 部 分 ): 


HOME=/home/marc 

HZ=100 

LC_COLLATE=en_US. IS08859-1 
LC_CTYPE=en_US. IS08859-1 
LC_MESSAGES=C 
LC_MONETARY=en_US . IS08859-1 
LOGNAME=marc 
MAIL=/var/mail/marc 


一 般 不 要 求 列 出 所 有 的 环境 ， 通 常 程序 需要 的 是 某 个 特定 变量 的 值 ， 标 准 C 函 数 getenv 
可 以 实现 此 功能 : 
getenv 一 一 得 到 环境 变量 值 
#include <stdlib.h> 


char *getenv( 
const char *var /* variable to find */ 


ve 
/* Returns value or NULL if not found (errno not defined) */ 





getenv 仅 仅 返回 了 环境 变量 的 值 ， 即 “=” 号 的 右 侧 部 分 ， 如 下 例 所 示 : 


int main(void) 
d 
char *s; 


s = getenv("LOGNAME") ; 


if (s == NULL) 
printf ("variable not found\n*); 
else 
printf ("value is \"%s\"\n", s); 
exit (EXIT_SUCCESS) ; 
} 


其 输出 结果 如 下 : 
value is "marc" 


更 新 环境 并 不 像 读 环境 那样 简单 。 尽 管 其 占用 的 内 存 段 具有 进程 独占 的 特性 ， 并 且 可 以 
被 任意 修改 ， 但 仍 不 能 保证 为 任意 新 变量 或 较 长 的 值 提供 超额 的 空间 。 所 以 除非 更 新 很 少 ， 
否则 必须 重新 创建 一 个 全 新 的 环境 。 如 果 使 指针 environ 指 向 了 这 个 新 环境 ， 那 么 它 会 被 传 
递 到 随后 调用 的 任何 程序 中 ( 见 5.3 节 )， 并 且 也 会 被 随后 对 getenv 的 调用 所 使 用 。 任 何 更 新 
都 不 会 影响 到 其 他 任何 进程 ， 包 括 调用 进程 进行 更 新 的 shell (或 诸如 此 类 ) 在 内 。 因此， 如 
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果 想 修改 shell 的 环境 ， 那 么 必须 得 把 命令 建立 到 shell 中 。 
与 其 直接 干预 环境 ， 不 如 使 用 一 些 标准 函数 : 


Putenv 一 一 改变 或 加 入 环境 变量 
#include <stdlib.h> 
int putenv( 
char *string /* string of form name=value */ 


ve 
/* Returns 0 on success or non-zero on error (sets errno) */ 


setenv 一 一 改变 或 加 入 环境 变量 
#include <stdlib.h> 
int setenv( 
const char *var, * variable to be changed or added */ 
const char *val, value */ 
int overwrite * overwrite? */ 


vi 
/* Returns 0 on success or -l on error (sets errno) */ 


unseteny 一 一 删除 环境 变量 
#include <stdlib.h> 


int unsetenv( 
const char ‘var /* variable to be removed */ 


) 
/* Returns 0 on success or -l on error (sets errno) */ 





所 有 的 函数 都 修改 environ 所 指 的 存储 空间 ， 如 果 指针 数组 不 够 长 ， 也 可 以 把 environ 
设置 成 一 个 新 值 。 如 果 用 户 自己 修改 了 environ 或 者 环境 指向 的 任何 部 分 ， 那么 这 些 函 数 的 
行为 会 变 成 未 定义 的 ， 所 以 用 户 要 决定 是 自己 亲自 修改 还 是 使 用 函数 ， 但 不 要 混用 这 两 种 方 
法 。 

putenv 将 形 如 name=value 的 完整 环境 字符 串 当 成 了 参数 ， 并 且 让 environ 数 组 中 的 一 
个 指针 指向 了 所 传递 进来 的 存储 空间 ， 接 着 该 存储 空间 也 成 了 环境 的 一 部 分 ， 所 以 不 要 传递 
任何 自动 分 配 的 数据 (本 地 的 、 非 静态 变量 )， 也 不 要 在 调用 putenv 后 修改 该 字符 串 。 

setenv 更 复杂 : 它 复制 传递 进来 的 变量 的 名 和 值 ， 并 为 它 分 配 单独 的 存储 空间 。 如 果 变 
量 已 经 存在 ， 而 且 第 三 个 overwrite 参 数 非 零 时 ， 则 修改 它 的 值 ; AM. RAAB. 4 
果 变 量 不 存在 ， 那 么 不 管 overwrite 参 数 的 值 是 什么 ， 都 将 它 添加 到 环境 。 

unsetenv 是 为 setenv 设 置 的 ， 它 的 功能 是 从 环境 中 移 去 变量 及 其 值 。 如 果 系统 中 没有 
unsetenv， 从 环境 中 移 去 变量 最 好 的 方法 是 设置 变量 的 值 为 空 字符 串 。 应 用 程序 可 能 会 接 
受 这 种 操作 ， 也 可 能 不 接受 这 种 操作 ， 这 要 看 具体 的 应 用 而 定 。( 一 些 系统 ， 如 Linux、 
FreeBSD 和 Darwin， 是 将 unsetenv 定 义 成 void 函 数 ， 因 此 没有 错误 返回 。) 

尽管 这 些 函 数 的 接口 实现 了 标准 化 ， 但 这 些 函数 也 不 是 必须 的 。FreeBSD、Linux 和 
Solaris 都 有 putenv， 而 前 两 个 系统 都 具有 这 3 个 函数 。SUS3 需 要 setenv 和 unsetenv, 但 
写本 书 时 ， 就 不 再 有 任何 SUS3 系 统 了 ， 因 此 没有 一 个 简单 的 、 方 便 的 方法 决定 保留 哪些 函数 。 
setenv 和 unsetenv 来 自 BSD， 它 们 存在 于 从 BSD 派 生 的 任何 系统 中 ， 包 括 FreeBSD 在 内 ; 
putenv 来 自 System V 系 统 ， 它 们 存在 于 从 System V 派 生 的 任何 系统 中 ， 包 括 Solaris。 既 然 
SUS 推 荐 setenv 和 unsetenv， 或许 最 好 的 方法 是 编程 实现 这 些 函 数 ， 然 后 将 自己 的 实现 包 


含 到 仍 缺 少 这 些 函数 的 系统 中 。 
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如 果 不 考虑 内 存 泄露 ， 那 么 实现 setenv 和 unsetenv 是 很 容易 的 。 就 nsetenv 来 说 ， 
问题 在 于 它们 可 能 必须 分 配 内 存 或 使 内 存 孤立 ， 但 由 于 它们 对 先前 怎样 分 配 内 存 的 情况 毫 无 
Hm, 因此 不 能 释放 内 存 。 尽 管 存在 那样 的 缺点 ， 但 仍 有 如 下 的 setenv 版 本 : 


int setenv(const char *var, const char *val, int overwrite) 
t 


int i; 
size_t varlen; 
char **e; 
if (var == NULL || val == NULL || var{0] == ‘\o" {| 
strehr(var, '=') != NULL) { 
errno = EINVAL; 
return -1; 
J 
varlen = strlen (var); 
for (i = 0; environ[i] != NULL; i++) 
if (strnemp(environ[i], var, varlen) == 0 && 
environ[il [varlen] == '=') 
break; 
if (environ[i] == NULL) { 
if ((e = malloc((i + 2) * sizeof(char *))) == NULL) 
return -1; 


memcpy(e, environ, i * sizeof(char *)); 
/* possible memory leaks with old pointer array */ 
environ = e; 
environ[i + 1) = NULL; 
return setnew(i, var,-val); 
} 
else { 
if (overwrite) { 
if (strlen(&environfi] [varlen + 1]) >= strlen(val)) { 
strcpy (&environ[i] [varlen + 1}, val); 
return 0; 
} 
return setnew(i, var, val); 
} 
return 0; 


} 


对 该 函数 的 注释 如 下 : 

。 要 做 的 第 一 件 事 是 检查 SUS 所 要 求 的 参数 。 

* 接 下 来 检查 环境 来 看 看 是 否 已 经 定义 了 变量 。 注 意 必 须 寻 找 那 些 在 名 字 后 面 跟着 “=” 
号 的 字符 申 。 

。 如 果 找 到 了 变量 ， 并 且 如 果 overwrite 参 数 的 值 是 false， 则 退出 。 否 则 有 两 种 情况 : 
在 新 值 满足 条 件 的 情况 下 ， 仅 需要 把 它 复制 进来 ， 在 不 满足 条 件 时 ， 只 需 在 调用 函数 
setnew ( 见 下 面 ) 时 将 它 放 进去 。 

。 如 果 没 有 找到 变量 ， 那 么 必须 增长 数组 。 像 先前 说 过 的 那样 ， 因 为 并 不 知道 旧 的 内 存 是 
如 何 分 配 的 ， 所 以 不 能 使 用 realloc。 因 此 用 户 自己 可 以 使 用 malloc， 并 复制 旧 内 容 。 
然后 用 NULL 指 针 终止 新 数组 ， 并 调用 setnew 放 入 新 的 条 目 。 

下 面 是 setnew， 它 的 功能 是 为 名 字 、= 号 和 值 分 配 空间 ， 并 把 它 存 于 数组 : 


static int setnew(int i, const char *var, const char *val) 


{ 
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char *s; 
if ((s = malloc(strlen(var) + 1 + strlen(val) + 1)) == NULL) 
return -1; 


strepy(s, var); 

streat(s, *="); 

streat(s, val); 

/* possible memory leak with old value of environ[i] */ 
environ[i] = s; 

return 0; 





} 


最 后 ， 使 用 unsetenv 检 查 参数 ， 查 找 它 ， 如 果 它 存在 ， 则 向 下 移动 数组 的 余下 部 分 以 
便 有 效 地 移 除 它 。 这 也 可 能 会 造成 内 存 泄露 ， 因 为 不 能 够 假定 未 设 定 变 量 的 内 存 能 被 释放 。 


int unsetenv(const char *var) 
{ 
int i, found = -1; 
size_t varlen; 


if (var == NULL || var{0] == '\0' || strchr(var, '=') != NULL) { 
errno = EINVAL; 
return -1; 


} 
varlen = strlen(var); 
for (i = 0; environ(i] != NULL; i++) 
if (strncmp(environ[i], var, varlen) == 0 && 


environ[i] [varlen] == '=') 
found = i; 


if (found != -1) 
/* possible memory leak with old value of environ[found] */ 


memmove (&environ(found], &environ(found + 1], 
(i - found) * sizeof(char *)); 
return 0; 
} 


注意 ， 这 里 使 用 的 是 memmove ， 而 不 是 memcpy， 因 为 如 果 源 和 目标 内 存 空间 重 倒 ， 那 
么 用 memmove 可 以 保证 前 者 正常 工作 。 
你 可 能 会 奇怪 为 什么 不 在 这 些 函 数 中 使 用 “ec” 错 误 检查 宏 ， 原 因 是 想 让 这 些 行为 尽 可 


能 地 接近 标准 函数 。 
在 setenv 和 unsetenv 中 纠正 内 存 港 露 问题 是 非常 简单 的 ， 见 练习 5.1。 


5.3 exec 系统 调用 


在 没有 完全 理解 进程 和 程序 的 区 别 以 前 ， 要 理解 exec 或 fork 调 用 是 不 可 能 的 。 如 果 对 
这 些 术语 不 熟悉 ， 可 以 复习 1.1.2 节 的 内 容 。 如 果 现在 准备 继续 ， 那 么 这 里 我 们 用 一 句 话 来 总 
结 一 下 两 者 的 不 同 : 进程 是 一 个 执行 环境 ， 这 个 环境 包含 了 指令 、 用 户 数据 和 系统 数据 段 ， 
也 包括 运行 时 需要 的 许多 其 他 资源 ， 而 程序 则 是 一 个 文件 ， 访 文件 包含 了 指令 和 用 于 初始 化 
该 指令 以 及 进程 用 户 数据 段 的 数据 。 

exec 系 统 调用 从 指定 程序 重新 初始 化 进程 ;虽然 进程 还 在 ， 但 程序 已 经 改变 了 。 另 一 方 
面 ，fork 系 统 调用 (5.5 节 的 主题 ) 仅 通过 复制 指令 、 用 户 数据 和 系统 数据 段 来 创建 从 现存 进 
程 克 隆 的 新 进程 ;该 新 进程 不 是 从 程序 初始 化 得 来 的 ， 所 以 旧 进 程 和 新 进程 执行 同样 的 指令 。 

个 别 情况 下 ，fork 和 exec 的 使 用 是 有 限制 的 ， 但 大 多 数 时 候 ， 可 以 同时 使 用 它们 。 在 本 
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书 单独 介绍 它们 时 ， 记 住 这 些 就 行 了 ， 但 如 果 认为 它们 是 无 用 的 ， 那 么 也 不 用 担心 一 -只 要 试 
着 理解 它们 的 功能 就 行 了 。 在 5.4 节 中 ， 当 一 起 使 用 它们 时 ， 会 看 到 它们 是 强 有 力 的 一 对 。 

除了 启动 UNIX 内 核 本 身 以 外 ，exec 是 程序 在 UNIX 上 获得 执行 的 唯一 方法 。 不 仅 shell 使 
用 exec 执 行程 序 ， 而 且 shell 和 其 祖先 shell 也 会 被 exec 调 用 。 此 外 fork 是 创建 新 进程 的 唯一 
方式 。 

事实 上 ， 没 有 叫做 “exec” 的 系统 调用 。 所 谓 的 “exec” 系 统 调用 是 6 个 以 execAB 形 式 
命名 的 调用 ， 这 里 A 是 指 1 或 v， 这 依赖 于 参数 是 直接 在 调用 (列表 ) 中 还 是 在 数组 中 (向量 )， 
而 B 要 么 没有 ， 要 么 为 p，p 表 示 应 该 使 用 PATH 环境 变量 查找 程序 ， 要 么 为 e，e 表 示 将 被 使 用 
的 特定 环境 。( 此 外 ， 在 同一 个 调用 中 用 户 不 能 同时 获得 特征 p 和 e.。 ) 因此 ，6 个 名 字 分 别 为 
execl, execv, execlp, execvp, execlefilexecve. 9 首先 从 execl 讲 起 ， 然 后 再 


介绍 其 他 5 个 。 
execl 一 一 执行 带 参数 列表 的 文件 


#include <unistd.h> 


int execl( 
const char *path, * program pathname */ 
const char *arg0, first arg (file name) */ 
const char *aral, second arg (if needed) */ 
sta remaining args (if needed) */ 
(char * ) NULL arg list terminator */ 


/* Returns -1 on error (sets errno) */ 





path 参 数 必须 命名 为 一 个 可 由 有 效用 户 ID (比如 说 ， 模 式 755) 执行 的 程序 文件 ， 而 且 可 
执行 程序 的 内 容 要 正确 。 通 过 重新 初始 化 栈 ， 来 自 程序 的 指令 覆盖 了 进程 的 指令 段 ， 并 且 来 
自 程序 的 数据 也 覆盖 了 进程 的 用 户 数据 段 。 然 后 进程 从 顶端 执行 该 新 程序 (也 就 是 说 ， 调 用 
了 它 的 main 函 数 )。 

因为 成 功 的 execl 的 返回 位 置 已 经 没 了 ， 所 以 可 以 没有 返回 值 。 若 exec1l 没 有 成 功 ， 则 
必须 返回 -1， 但 没有 必要 测试 该 值 ， 因 为 没有 其 他 可 能 的 值 。execl 不 成 功 的 最 常见 原因 是 
路 径 不 存在 ， 或 不 可 以 执行 。 

跟 在 Path 后面 的 exec1 参 数 被 收入 了 字符 指针 数组 ， 最 后 一 个 参数 的 值 必须 是 NULL， 
用 来 停止 收入 和 终止 数组 。 按 常规 ， 第 一 个 参数 都 是 程序 文件 的 名 字 (并 不 是 整个 路 径 )。 新 
程序 可 以 通过 与 main 的 argc 和 argv 相 似 的 参数 访问 这 些 参 数 。 也 传递 了 由 environ 指 向 的 
环境 ， 并 且 通 过 新 程序 的 environ 指 针 或 使 用 getenv 可 以 访问 它 ， 就 像 先前 章节 中 所 解释 
的 那样 。 

因为 进程 仍旧 存在 ， 并 且 因为 它 的 系统 数据 段 几 乎 没有 被 破坏 ， 所 以 几乎 所 有 的 进程 属 
性 都 没有 改变 ， 这 些 属 性 包括 它 的 进程 ID、 父 进程 ID、 进 程 组 ID、 会 话 ID、 控 制 终端 、 实 际 
用 户 ID、 实 际 组 ID、 当 前 目录 、 根 目录 、 优 先 级 和 累计 的 执行 次 数 ， 通 常 还 包括 打开 文件 描 
述 符 。 想 要 列 出 那些 确实 改变 了 的 重要 属性 就 更 容易 了 ， 原 因 如 下 : 

。 如 果 进 程 已 经 安排 捕获 某 个 信号 ， 而 被 委派 捕获 信号 的 指令 已 经 消失 ， 那 么 信号 将 被 重 

置 为 默认 动作 。 被 忽略 或 默认 的 信号 保存 原 有 方式 。( 有 关 信 号 的 更 多 内 容 见 第 9 章 。) 
。 如 果 新 程序 文件 的 设置 用 户 ID 位 或 设置 组 ID 位 是 打开 的 ， 那 么 有 效用 户 ID 或 有 效 组 ID 
将 被 改 成 文件 的 所 有 者 ID 或 组 ID 。 如 果 它 们 本 身 与 实际 ID 不 相符 ， 那 么 也 无 法 重新 获 





O 用 2 个 系统 调用 而 非 6 个 系统 调用 就 很 容易 提供 相同 特性 ， 但 变化 稍微 有 点 晚 ， 见 练习 5.6- 
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得 先前 的 有 效 ID 了 。 

“任何 用 atexit ( 见 1.3.4 节 ) 注册 的 函数 都 可 以 被 取消 注册 ， 因 为 它们 已 经 没有 代 

码 了 。 

。 共 享 内 存 段 ( 见 7.12 节 ) 将 被 断 开 (取消 映射 )， 因 为 连接 点 已 经 失效 。 

， 关 闭 POSIX 的 命名 信号 量 ( 见 7.10 节 )。System V 的 信号 量 ( 见 7.9 节 ) 不 受 影响 。 

附录 A 给 出 了 完整 列表 。 但 应 该 知道 : 如 果 保 留 的 某 个 属性 或 资源 对 整个 运行 的 新 程序 而 
言 是 没有 意义 的 ， 那 么 它 会 被 重 置 为 默认 的 或 被 关闭 。 

为 了 说 明 如 何 使 用 exec1l， 下 面 给 出 一 个 精心 设计 的 例子 : 


void exectest (void) 


{ 





printf ("The quick brown fox jumped over "); 
ec_negl( execl(*/bin/echo*, "echo", "the", “lazy", "dogs.", (char *) NULL )) 


return; 


EC_CLEANUP_BGN 
EC_FLUSH("exectest") ; 

EC_CLEANUP_END 

) 


下 面 是 调用 该 函数 得 到 的 输出 : 
the lazy dogs. 

fox 怎 么 了 ? 噢 ， 原 来 是 它 不 够 快 : 标准 IO 库 (printf 是 该 库 的 一 部 分 ) 缓冲 了 它 的 输 
出 ， 并 且 当 进程 退出 时 ， 自 动 刷新 了 所 有 最 近 的 不 完全 满 的 缓冲 区 。 但 调用 exec1 之 前 ， 进 
程 不 会 退出 ， 并 且 作为 用 户 数据 段 的 缓冲 区 在 被 刷新 之 前 会 被 禾 盖 。 

该 问题 既 可 以 通过 强制 不 要 缓冲 输出 来 解决 ， 像 这 样 : 

setbuf (stdout, NULL); 
也 可 以 在 调用 exec1 之 前 刷新 缓冲 区 ， 像 这 样 : 

fflush(stdout) ; 

像 前 面 讲 过 的 ， 打 开 文件 描述 符 通常 借助 exec1 保 持 打开 状态 。 如 果 不 希 望 文 件 描述 符 
保持 打开 状态 ， 可 以 首先 使 用 close 关 闭 它 。 但 有 的 时 候 ， 这 行 不 通 。 假 定 正在 调用 一 个 要 
求 关 闭 所 有 文件 描述 符 的 程序 ( 一 个 非常 不 常见 的 要 求 )， 那 么 可 以 试 试 这样 : 

Se ONuit opal max = sysconf(_SC_OPEN_MAX) ) 

for (fd = 0; fd < open_max ; fd++) 

(void)close(fd); /* ignore errors */ 

ec_negl( execl (path, arg0, argl, arg2, (char * ) NULL )) 

调用 sysconf ( 见 1.5.5 节 ) 能 够 获得 一 个 进程 可 以 打开 的 最 大 文件 个 数 ， 而 最 高 的 文件 
描述 符 编号 也 比 这 个 数目 小 1。 最 坏 的 打算 是 关闭 所 有 的 文件 描述 符 ， 不 管 文件 描述 符 是 否 都 
是 打开 的 ， 都 要 关闭 它们 。 这 是 个 少见 的 示例 ， 它 忽略 了 系统 调用 返回 的 错误 ， 这 样 做 是 愉 
当 的 。 

如 果 exec1 成 功 ， 那 么 一 切 都 好 ， 但 如 果 它 失败 了 ， 那 么 也 不 会 看 到 错误 消息 ， 因 为 文 
件 描述 符 2 已 经 被 关闭 了 ! 这 里 可 以 使 用 3.8.3 节 遇 到 的 执行 关闭 标志 ， 当 用 fcnt1 设 置 时 ,在 
execl 成 功 的 情况 下 会 关闭 文件 描述 符 ， 否 则 不 管 它 。 我 们 要 么 仅仅 为 重要 的 文件 描述 符 设 
置 该 标志 ， 要 么 就 为 所 有 的 都 设置 ， 像 这 样 : 
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for (fd = 0; fd < open_max ; fd++) { 
ec_negl( flags = fcntl(fd, F_GETFD) ) 
ec_negl( fentl(fd, F_SETFD, flags | FD_CLOEXEC) ) 

aero execl(path, arg0, argl, arg2, (char *) NULL ) ) 

对 所 有 文件 描述 符 进行 关闭 或 设置 执行 关闭 的 一 个 问题 是 : 可 能 会 有 一 千 个 甚至 更 多 的 
文件 描述 符 ， 这 就 需要 进行 大 量 的 处 理工 作 ， 并 且 大 多 数 处 理 是 浪费 的 。 同 时 ， 通 过 exec， 
除了 让 标准 文件 描述 符 打开 外 ， 让 其 他 任何 描述 符 都 保持 打开 是 不 对 的 ， 除 非 新 程序 所 期 望 
的 多 于 这 三 个 标准 文件 描述 符 ， 而 这 是 不 常见 的 。 因 此 在 大 多 数 情况 下 ， 需 要 跟踪 程序 打开 
了 什么 样 的 文件 描述 符 ， 并 且 要 在 调用 exec 之 前 明确 地 关闭 它们 。 

因为 标准 文件 描述 符 通常 保持 在 打开 状态 ， 所 以 很 少 使 用 执行 关闭 。 其 有 用 的 一 个 例子 
是 将 打开 的 文件 描述 符 用 作 日 志文 件 ， 在 exec 失 败 时 可 以 通过 打开 的 文件 描述 符 来 记录 
事实 。 

其 他 5 个 exec 系 统 调用 提供 了 3 个 exec1 没 有 的 特性 : 

。 将 参数 放 到 数组 中 而 不 是 显 式 地 将 它们 列 出 来 。 当 不 知道 编译 阶段 的 参数 个 数 时 ， 这 是 

非常 必要 的 ， 就 像 编写 一 个 shell 程 序 一 样 。 

。 使 用 PATH 环 境 变量 值 查找 程序 文件 ， 如 shell 所 做 的 那样 。 

。 手 动 传递 一 个 明确 的 环境 指针 ， 而 不 是 自动 使 用 environ。 因 为 成 功 的 exec 将 覆盖 现 

存 的 环境 ， 所 以 这 个 特性 优越 性 并 不 明显 。9 

下 面 是 还 没有 介绍 的 exec 变 量 的 对 照 表 : 


execy 一 一 执行 带 参数 向 量 的 文件 
#include <unistd.h> 
int execv( 
const char *path, /* program pathname */ 
char ‘const argvl] ~ /* argument vector */ 


iF; 
/* Returns -1 on error (sets errno) */ 


execlp 一 一 执行 带 参数 列表 和 路 径 搜索 的 文件 
#include <unistd.h> 


int execlp( 
const char ‘file, * program file name */ 
const char *arg0, * first arg (file name) */ 
const char *argl, * second arg (if needed) */ 
seer * remaining args (if needed) */ 
(char * ) NULL /* arg list terminator */ 


Ve 
/* Returns -1 on error (sets errno) */ 


execvp 一 一 执行 带 参数 向 量 和 路 径 搜索 的 文件 
#include <unistd.h> 
int execvp( 


const char *file, /* program file name */ 
char *const argvf] /* argument vector */ 





w 
/* Returns -1 on error (sets errno) */ 


O 但 是 见 练习 5.2。 
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execle 一 一 执行 带 参数 列表 和 环境 变量 的 文件 
#include <unistd.h> 


int execle( 
const char *path, /* program pathname */ 
const char *arg0, * first arg (file name) */ 
const char *argl, * second arg (if needed) */ 
Sic * remaining args (if needed) */ 
(char *) NULL, /* arg list terminator */ 
char *const envv[] /* environment vector */ 


) 
/* Returns -1 on error (sets errno) */ 


execve 一 一 执行 带 参数 向 量 和 环境 变量 的 文件 
#include <unistd.h> 


int execvel 
const char *path, /* program pathname */ 
char *const argv[], /* argument vector */ 
char *const envv[} /* environment vector */ 


a 
/* Returns -1 on error (sets errno) */ 





注意 这 里 使 用 的 argv 参 数 和 main 函 数 的 argv 参 数 的 设计 是 相同 的 。 不 要 忘记 最 后 一 个 
指针 必须 是 NULL。 

如 果 execlp 或 execvp 的 file 参 数 没有 斜 线 ， 则 把 PATH 变 量 值 中 所 列 出 的 字符 申 一 个 
一 个 地 与 之 比较 ， 直 到 定位 到 一 个 带 有 结果 路 径 名 的 普通 文件 ， 其 中 结果 路 径 名 具有 执行 权 
限 。 如 果 这 个 文件 包含 一 个 程序 (在 它 的 第 一 个 字 处 由 一 个 代码 号 指示 的 )， 便 执行 它 。 如 果 
不 包含 ， 则 将 其 假定 为 一 个 脚本 文件 ;通常 为 了 运行 这 个 脚本 文件 ， 都 把 路 径 作为 shell 的 第 
一 个 参数 来 执行 shell。 

例如 ， 如 果 file 参 数 的 值 是 echo ， 并 且 PRATH 字 符 串 查找 到 了 一 个 可 执行 路 径 是 
/bin/echo 的 文件 ， 那 么 以 程序 方式 执行 该 文件 ， 因 为 按照 正确 的 格式 其 包含 二 进 制 指令 。 但 
如 果 file 参 数 是 (比如) myscript， 且 查找 到 的 是 /home/marc/myscript (不 是 可 执行 的 二 
进 制 文件 )， 那 么 exec1P 或 execvP 就 执行 如 下 代码 : 


sh /home/marc/myscript argl arg2 . 


这 取决 于 利用 什么 样 的 shell 来 实现 ， 但 必须 得 是 标准 确认 的 。 
另 一 个 普遍 支持 的 ， 但 并 不 是 标准 的 规范 是 : 如 果 脚 本 的 第 一 行 具有 如 下 形式 : 


#! pathname [arg] 


则 Pathname 指 定 的 解释 器 会 代替 shell 执 行 ， 它 使 用 脚本 文件 的 路 径 作为 第 一 个 参数 。 
如 果 在 #! 行 上 有 可 选项 arg， 那 么 它 会 成 为 程序 的 第 一 个 参数 ， 而 脚本 路 径 名 将 变 成 第 二 个 
参数 。 解 释 器 必须 略 过 #! 行 ， 这 就 是 为 什么 UNIX 脚 本 语言 使 用 # 开 始 一 行 注释 的 原因 了 。 
例如 ， 可 以 在 文件 mycmd 中 放置 如 下 的 脚本 : 


#! /usr/bin/python2.2 
print "Hello World!* 


使 它 成 为 可 执行 的 ， 然 后 如 下 执行 它 : 


$ mycmd 
Hello World! 
s 
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几乎 在 所 有 的 系统 中 ， 都 是 用 execvp 来 处 理 #! 行 的 ， 而 不 是 用 shell 本 身 来 处 理 。 


ee 


如 果 PATH 查找 的 结果 证 明 没有 任何 内 容 是 可 执行 的 ， 则 exec 失 败 。 如 果 文 件 参数 中 有 
就 不 用 进行 查找 一 一 认为 完成 了 路 径 查找 。 但 是 它 仍然 可 能 是 一 个 脚本 文件 。 
把 execvp 和 execlp 编 程 为 调用 execv 或 execl 的 库 函 数 是 可 行 的 ， 并 且 这 样 做 也 可 以 


了 解 很 多 东西 。 这 里 给 出 了 一 个 和 标准 版 本 接近 的 execvp 版 本 ， 但 该 版 本 使 用 了 “ec” 错 误 
检查 宏 。 


回顾 可 知 ， 对 于 每 个 通过 查找 PATH 得 到 的 路 径 ，execvp 首 先 必须 尝试 将 其 作为 可 执行 


二 进 制 文件 来 执行 ， 然 后 再 将 其 作为 shell 脚 本 来 执行 。 下 面 是 完成 这 个 功能 的 函数 (省略 了 
#! 特 征 ): 


int exec_path(const char *path, char *const argv[], char *newargv[]) 
{ 


int i; 


execv(path, argv); 

if (errno == ENOEXEC) { 
newargv(0] = argv(0]; 
newargv[1) = (char *)path; 


isl; 
do { 
newargv(i + 1) = argv[i]; 
} while (argv(it++] != NULL); 
return execv("/bin/sh*, (char *const *)newargv); 
} 
return -1; 


) 


如 果 这 两 种 方式 执行 路 径 失败 ， 则 exec_path 返 回 -1， 并 设置 errno。 

这 里 的 execvp 版 本 称 作 execvp2， 每 次 调用 exec_path 了 时 ， 都 必须 轮流 尝试 PATH 中 
的 每 一 个 路 径 ， 除 非 传递 的 文件 包含 “/” 或 PATH 不 存在 ， 在 这 种 情况 下 可 以 仅 采 用 如 下 的 方 
式 来 使 用 : 


int execvp2(const char *file, char *const argv[]) 


{ 


char *s, *pathseq = NULL, ‘path = NULL, **newargv = NULL; 
int arge; 


for (argc = 0; argv[argc] != NULL; argc++) 


/* If shell script, we'll need room for one additional arg and NULL. */ 

ec_null( newargv = malloc((arge + 2) * sizeof(char *)) ) 

s = getenv ("PATH"); 

if (strchr(file, '/') != NULL || s == NULL || s(0] == ‘\0") 
ec_negl( exec_path(file, argv, newargv) ) 

ec_null( pathseg = strdup(s) ) 

/* Following line usually allocates too much */ 

ec_null( path = malloc(strlen(file) + strlen(pathseq) + 2) ) 

while ((s = strtok(pathseg, *:")) != NULL) { 

pathseq = NULL; /* tell strtok to keep going */ 

No") 





strcpy (path, 
strcat (path, 
strcat(path, file); 

exec_path(path, argv, newargv); 





m; 
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} 
errno = ENOENT; 
EC_FAIL 


EC_CLEANUP_BGN 
free(pathseq); 
free (path); 
free (newargv); 
return -1; 

EC_CLEANUP_END 

} 

下 面 是 一 些 关于 内 存 分 配 的 解释 : 

*， 无 论 exec 成 功 与 否 ， 要 释放 分 配 了 的 内 存 都 几乎 是 不 必要 的 ， 也 是 不 可 能 的 ， 因 为 所 

有 的 用 户 数据 都 将 被 覆盖 。 

， 将 PATH 的 长 度 、 传 人 的 文件 名 的 长 度 以 及 “/” 和 NUL 的 两 个 字 节 长 度 都 加 到 一 起 ， 所 

得 到 的 长 度 对 于 每 个 要 分 析 的 路 径 来 说 都 肯定 够 用 了 。 

* 如 果 想 要 尝试 执行 脚本 文件 ， 那 么 需要 一 个 比 传人 的 参数 向 量 要 多 一 个 档 的 参数 向 量 。 
因此 要 计算 传人 的 参数 个 数 (在 fo 循环 中 )， 然 后 使 用 比 其 多 两 个 槽 的 档 数 来 分 配 向 
量 (一 个 用 于 附加 的 参数 一 一 shell 要 执行 的 路 径 名 ， 另 一 个 用 于 结尾 的 NULL 指 针 ) 。 

， 这 里 使 用 了 strdup 来 分 配 新 字符 以 容纳 PATH 的 值 ， 因 为 strtok 将 向 其 写 信 。 从 
getenv 直 接 得 到 的 指针 指向 了 该 环境 ,不 需 直 接 修改 这 些 字符 串 ， 以 防 execvP2 失 败 。 
( 当 调用 该 函数 时 ， 必 须 把 strtok 的 第 一 个 参数 设置 为 NULL 一 一 这 样 它 可 以 知道 怎样 
继续 扫描 初始 字符 。) 

如 上 所 说 ， 通 常 exec 和 fork 是 配对 使 用 的 ， 但 偶尔 单独 使 用 的 情况 也 有 。 有 时 候 大 的 
程序 会 被 分 割 成 几 段 来 执行 ， 由 exec 连 接 执行 下 一 个 程序 段 。 但 因为 所 有 的 指令 和 用 户 数据 
都 被 覆盖 了 ， 所 以 程序 段 必 须 独立 工作 一 一 只 可 以 通过 参数 、 环 境 或 文件 来 传递 数据 。 因 此 
这 种 应 用 很 少 ， 但 是 应 该 了 解 。 更 常见 的 是 ， 在 调用 命令 前 只 需要 做 非常 少 的 前 期 工作 时 ， 
可 以 单独 使 用 exec。 例 如 nohup 命 令 ， 在 使 用 execvp 调 用 用 户 命令 前 ， 它 会 强制 挂 起 信号 。 
再 如 nice 命 令 ， 它 改变 了 命令 优先 级 ( 见 5.15 节 中 的 例子 ) 


5.4 实现 shell (版 本 1) 


现在 对 系统 调用 已 经 有 了 足够 的 了 解 ， 可 以 写 自 己 的 shell 了， 尽管 不 一 定 很 好 。 主 要 的 
不 足 是 : 因为 exec 没 有 返回 值 ， 所 以 为 了 执行 一 个 命令 ， 它 不 得 不 自行 销毁 。 如 果 非 要 坚持 
在 错误 的 命令 中 输入 ， 那 么 也 可 以 继续 运行 。 这 样 做 时 ， 会 执行 两 个 内 置 命 令 来 修改 和 访问 
环境 : 这 两 个 命令 是 赋值 (例如 ，BOOK=/usr/marc/book) 和 set，set 会 输出 环境 。9 

第 一 个 任务 是 把 命令 行 分 解 成 参数 。 简 单 地 说 ， 就 是 在 没有 引用 参数 的 情况 下 也 可 工作 。 
另外 ， 因 为 这 个 shell 不 能 够 控制 后 台 进 程 、 顺 序 执行 或 者 管道 ， 所 以 不 必 考 虑 特定 的 字 
符 5&、; 和 | 。 同 样 也 可 以 忽略 重 定向 (>、>> 和 < )。 因 此 ， 命 令 行 仅 由 一 系列 由 空格 或 制 表 
符 分 开 的 字 组 成 。 必 须 将 它们 收集 到 一 起 并 把 它们 放 入 argv 数 组 : 


#define MAXLINE 200 


static bool getargs(int *argcp, char *argv[], int max, bool *eofp) 
{ 


O 没有 export 命 令 ， 把 整个 环境 传递 给 执行 的 命令 - 
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static char cmd(MAXLINE] ; 
char *cmdp; 


int i; 


*eofp = false; 
if (fgets(cmd, sizeof(cmd), stdin) == NULL) { 
if (ferror(stdin)) 
EC_FAIL 
*eofp = true; 
return false; 
) 
if (strchr(cmd, ‘\n') == NULL) { 
/* eat up rest of line */ 
while (true) { 
switch (getchar()) { 
case '\n': 
break; 
case EOF: 
if (ferror(stdin)) 
EC_FAIL 
default: 
continue; 
) 
break; 
) 
printf ("Line too long -- command ignored\n"); 
return false; 


y 


cmdp = cmd; 
for (i = 0; i < max; i++) { 
if ((argv[i] = strtok(cmdp, * \t\n")) == NULL) 


break; 
cmdp = NULL; /* tell strtok to keep going */ 


) 
if (i >= max) ( 
print£(*Too many args -- command ignored\n*); 
return false; 
} 
*argcp = i; 
return true; 


EC_CLEANUP_BGN 
EC_FLUSH(*getargs") 
return false; 

EC_CLEANUP_END 

} 


注释 : 

。 如 果 getargs 能 正确 解析 参数 ， 则 返回 true， 否 则 返回 false。 

。 它 使 用 了 标准 C 函 数 fgets 来 读 取 输 入 行 。 即 使 输入 行 很 长 ， 函 数 也 会 很 安全 ， 因 为 它 
不 会 超过 传递 的 缓冲 区 。 但 在 那 种 情况 下 ， 并 不 希望 将 没 读 的 字符 留 到 以 后 去 读 ， 因 为 
到 那 时 按照 本 身 正 确 的 方式 它们 可 能 已 成 为 没有 意义 的 ， 而 且 可 能 还 有 破坏 作用 的 shell 
命令 。 因 此 在 那 种 情况 下 (没有 换行 结束 符 ) ， 输 出 错误 消息 前 ， 程 序 读 人 并 去 掉 了 行 
中 的 剩余 部 分 。 

。 接 着 使 用 strtok 把 行 分 解 为 它 的 参数 。( 前 一 节 中 ，execvp2 中 也 使 用 了 strtok。) 

。 在 getargs 调 用 的 库 函 数 真 的 出 现 错误 时 ， 它 会 使 用 EC_FLUSH 显 示 它 本 身 的 错误 消 
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息 ， 否 则 ， 例 如 在 行 很 长 的 情况 下 ， 它 会 为 用 户 输出 消息 。 
接 下 来 需要 函数 处 理 内 置 命令 、 赋 值 和 set。 这 是 很 容易 的 ， 


境 处 理 技术 : 


extern char **environ; 


可 以 使 用 5.2 节 中 的 环 





void set(int argc, char *argv[]) 
{ 


int i; 


if (arge != 1) 
printf ("Extra args\n"); 
else 
for (i = 0; environ[i] != NULL; i++) 
print£("ts\n", environ[il); 


} 


void asg(int argc, char *argv(]) 
{ 
char ‘name, *val; 
if (argc != 1) 
printf ("Extra args\n"); 
else { 
name = strtok(argv[0], i 
val = strtok (NULL, "*); /* get all that's left */ 
if (name == NULL || val == NULL) 
printf ("Bad command\n") ; 
else 
ec_negl( setenv(name, val, true) ) 





} 


return; 


EC_CLEANUP_BGN 
EC_FLUSH("asg*) 

EC_CLEANUP_END 

} 


接 下 来 ， 使 用 main 函 数 来 完成 该 程序 ， 它 将 输出 提示 符 ( 这 里 使 用 e )， 获 得 参数 ， 核 对 
命令 是 否 是 内 置 的 。 如 果 不 是 内 置 的 ， 则 设法 去 执行 它 : 


#define MAXARG 20 


int main(void) 

{ 
char *argv(MAXARG] ; 
int arge; 
bool eof; 


while (true) { 
printf ("@ *); 
if (getargs(&argc, argv, MAXARG, &eof) && argc > 0){ 
if (strchr(argv[0], '=') != NULL) 
asg(arge, argv); 
else if (strcmp(argv(0], "set") == 0) 
set(arge, argv); 
else 
execute(argc, argv); 
} 
if (eof) 
exit (EXIT_SUCCESS) ; 
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Hi 


static void execute(int argc, char *argv[]) 
{ 

execvplargv[0], argv); 

printf ("Can't execute\n"); 
) 


注意 ， 只 要 execvp 失 败 ， 就 会 回 送 输出 另 一 个 提示 符 。 那 就 是 为 什么 不 可 能 发 现 该 shell 
是 有 用 的 了 。 下 面 是 一 个 简单 的 会 话 (为 了 节省 空间 缩减 了 环境 列表 ): 


$ sho 
@ set 

SSH_CLIENT=192.168.0.1 4971 22 

USER=marc 

MAIL=/var/mail/mare 

EDITOR=vi 

@ LASTNAME=Rochkind 

@ set 

SSH_CLIENT=192.168.0.1 4971 22 

USER=marc 

MAIL=/var/mail/marc 

EDITOR=vi 

LASTNAME=Rochkind 

@ echo Hello World! 

Hello World! 

$ 

注意 在 执行 echo 之 后 结尾 的 $ 符 号 ， 这 时 shell 已 经 退出 。 实 际 上 退出 的 是 echo， 因 为 它 是 


代 赤 shell 的 程序 。 明 确 地 说 ， 对 shel 来 说 ， 更 好 的 办 法 是 shell 在 自己 本 身 的 进程 中 执行 命令 ， 这 
正 是 我 们 的 目标 。 
5.5 fork 系 统 调用 

在 某 种 程度 上 fork 和 exec 是 相反 的 : 它 可 以 创建 一 个 新 进程 ， 但 它 并 不 初始 化 新 程序 
中 的 这 个 进程 。 相 反 ， 新 进程 的 指令 、 用 户 数据 和 系统 数据 段 几乎 就 是 旧 进程 的 完全 复制 。 


fork 一 一 创建 新 进程 


#include <unistd.h> 


pid_t fork(void); 


/* Returns child process-ID and 0 on success or -1 on error (sets errno) */ 





fork 调 用 返回 后 ， 两 个 进程 〈 父 进程 和 子 进程 ) 都 接受 返回 值 。 但 返回 值 是 不 同 的 ， 这 
一 点 很 重要 ， 因 为 这 样 才能 允许 它们 接 下 来 做 出 不 同 的 反应 。 通 常 ， 子 进程 执行 exec， 而 父 
进程 要 么 等 待 子 进程 终止 ， 要 么 离开 去 做 其 他 事情 。 

创建 成 功 时 ， 子 进程 接收 到 forkx 的 返回 值 为 0， 父 进程 将 接收 子 进程 的 进程 ID。 通 常情 
况 下 ， 返 回 值 为 -1 则 表示 出 错 ， 但 因为 fork 没 有 任何 参数 ， 所 以 调用 进程 不 会 出 错 。 引 起 错 
误 的 唯一 原因 便 是 资源 耗竭 ， 如 交换 空间 不 足 或 执行 了 太 多 的 进程 。 父 进程 不 会 中 止 ， 相 反 
可 能 会 等 待 一 会 (比如 用 sleep)， 然 后 再 试 一 次 ， 这 可 能 并 不 是 shell 的 典型 做 法 ， 典 型 做 法 


是 输出 一 个 消息 然后 再 次 提示 。 
回顾 可 知 ，exec 系 统 调用 执行 的 程序 可 以 保留 很 多 的 属性 ， 因 为 在 大 多 数 情况 下 系统 数 
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据 段 是 单独 留 下 来 的 。 同 样 ，fork 创 建 的 子 进程 也 继承 了 父 进程 的 大 部 分 属性 ， 因 为 它 的 系 
统 数据 段 是 从 父 进程 复制 而 来 的 。 正 是 这 种 继承 性 允许 用 户 从 shell 设 定 某 些 属性 ， 如 当前 目 
录 、 有 效用 户 ID 和 优先 级 ， 并 把 这 些 属性 应 用 到 依次 调用 的 每 个 命令 中 。 可 以 认为 这 些 属性 
MT “ARK” (immediate family ) ， 尽 管 这 并 不 是 个 正式 的 UNIX 术 语 。 

仅 有 很 少 的 属性 没有 得 到 继承 : 

* 显然 ， 子 进程 ID 与 父 进程 ID 是 不 同 的 ， 因 为 它们 是 不 同 的 进程 。 

。 如 果 父 进程 正在 运行 多 线程 ( 见 5.17 节 )， 那 么 只 有 执行 fork 的 那个 线程 存在 于 子 进程 

中 。 尽 管 如 此 ， 父 进程 中 的 所 有 线程 都 完好 无 损 。 

* 子 进程 得 到 了 父 进程 多 个 打开 文件 描述 符 的 复制 。 每 个 都 打开 到 同一 个 文件 ， 并 且 文 件 

件 指针 有 相同 的 值 。 因 此 ， 这 个 打开 文件 描述 ( 见 2.2.3 节 ) 以 及 文件 偏 移 量 是 共享 的 。 

如 果子 进程 用 1seek 更 改 它 ， 那 么 父 进 程 的 下 一 个 read 或 write 将 从 新 位 置 开始 。 但 

文件 描述 符 本 身 是 不 同 的 ， 即 使 子 进程 关闭 了 它 ， 父 进程 的 复制 也 不 会 受到 影响 。 

* 子 进程 的 累计 执行 时 间 会 被 重 置 为 零 ， 因 为 它 处 在 生存 期 的 开始 。 

(这 些 是 主要 内 容 一 一 全 部 清单 见 附件 A) 

下 面 给 出 一 个 简单 示例 ， 说 明 fork 的 作用 : 


void forktest (void) 


{ 
int pid; 


printf ("Start of test\n"); 

pid = fork(); 

printf ("Returned %d\n", pid); 
) 


输出 如 下 : 


$ forktest 

Start of test 

Returned 98657 

Returned 0 

$ 

在 这 种 情况 下 ， 父 进程 在 子 进程 之 前 执行 了 它 的 printf， 但 通常 并 不 能 依据 执行 先后 来 
决定 ， 因 为 进程 的 进程 表 是 独立 的 。 如 果 这 个 问题 很 重要 ， 那 么 你 必须 亲自 同步 它们 ， 和 
9.2.3 节 一 样 ， 可 以 使 用 管道 来 实现 ， 或 相对 难 一 点 ， 使 用 信号 。 

让 我 们 再 一 次 运行 forktest ， 但 这 次 把 标准 输出 重 定向 到 文件 : 


$ forktest >tmp 
$ cat tmp 
Start of test 
Returned 56807 
Start of test 
Returned 0 

$ 


这 里 写 了 两 次 “Start oftest” ! 你 能 发 现 这 是 为 什么 吗 ? (解释 在 下 一 段 中 。) 

真正 发 生 的 事情 是 ，printf 缓 存 了 它 的 输出 (就 像 2.12 节 所 解释 的 那样 )， 并 且 子 进程 继承 
了 没有 被 刷新 的 缓冲 区 和 其 他 内 容 。 当 子 进程 退出 时 ， 它 刷新 了 缓冲 区 ， 而 且 父 进程 也 作 了 同 
样 的 处 理 。 之 前 ， 当 输出 没有 重 定向 到 文件 时 ，printf 没 有 使 用 缓冲 ， 因 为 它 知道 标准 输出 是 
个 终端 设备 ， 并 且 它 应 该 表现 出 更 好 的 交互 性 。 在 5.7 节 中 ， 将 讨论 怎样 控制 退出 的 副作用 。 
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fork 和 exec 是 一 个 完美 的 搭配 ， 因 为 fork 创 建 子 进程 ， 但 当 子 进程 几乎 是 父 进 程 的 克 
隆 时 ， 这 通常 是 没有 什么 用 处 的 。 但 被 新 程序 覆盖 是 比较 理想 的 ， 这 恰 是 exec 所 做 的 工作 。 
在 下 一 节 中 ， 将 介绍 如 何 改进 我 们 的 shell。 

fork 的 潜在 开销 是 巨大 的 。 它 会 遇 到 克隆 父 进程 的 所 有 麻烦 ， 也 许 在 重新 初始 化 代码 和 
数据 段 前 ， 复 制 大 量 的 数据 段 (这 些 指令 段 通常 是 只 读 的 ， 并 且 是 共享 的 ) 而 仅仅 只 执行 几 百 
条 指令 。 这 似乎 很 浪费 ， 并 且 确 实 如 此 。UNIX 的 虚拟 内 存 版 本 很 巧妙 地 解决 了 这 个 问题 ， 在 
该 版 本 中 ,复制 开销 是 特别 高 的 ， 被 叫 作 写 时 复制 (copy-on-write)。 它 工作 方式 如 下 : 对 于 
fork， 父 进程 和 子 进程 共享 由 页 集合 构成 的 数据 段 。 只 要 没有 修改 页 面 ， 这 种 快捷 方式 就 会 
正常 工作 。 然 而 一 旦 父 进程 或 子 进程 试图 对 某 一 页 面 进行 写 操作 ， 那 么 便 复制 该 页 的 内 容 给 它 
自己 的 每 个 进程 。 这 种 做 法 是 透明 的 ， 并 且 当 和 具有 动态 地 址 转换 功能 的 硬件 一 起 使 用 时 是 高 
效 的， 而 几乎 所 有 的 现代 计算 机 都 拥有 这 样 的 硬件 。 因 为 几乎 在 所 有 的 情况 下 ，exec 的 反应 
都 非常 快 ， 所 以 只 有 很 少 的 页 要 复制 。 但 即使 所 有 的 页 面 都 需要 复制 ， 情 况 也 坏 不 到 哪里 
去 一 事实 上 ， 情 况 会 更 好 些 ， 因 为 我 们 能 够 更 早 地 运行 子 进程 。 记 住 写 时 复制 的 设计 在 内 核 
里 面 ; 它 并 不 改变 fork 的 语义 ， 并 且 除了 具有 更 良好 的 性 能 外 ， 用 户 几乎 意识 不 到 它 的 存在 。 

vfork 是 fork 的 另 一 个 版 本 ， 其 效率 比 写 时 复制 高 ， 但 不 像 它 那么 透明 : 


vfork 一 一 创建 新 进程 ， 共 享 内 存 (过 时 的 ) 


#include <unistd.h> 


pid_t vfork(void); 


/* Returns child process-ID and 0 on success or -1 on error (sets errno) */ 





就 创建 子 进程 而 言 ，vfork 和 fork 的 行为 非常 像 ， 但 这 里 的 父 进程 和 子 进程 共享 相同 的 
数据 段 。 这 里 没有 写 时 复制 -一 它们 读 写 相 同 的 变量 ， 因 此 除非 子 进 程 立刻 退出 或 执行 一 个 
exec， 否 则 灾难 便 会 跟着 发 生 。 而 通常 ， 子 进程 的 立刻 退出 或 执行 exec 的 行为 是 无 论 如 何 
都 会 发 生 的 (请 看 下 一 节 的 函数 例子 execute2)。9 在 BSD UNIX 早 期 的 版 本 中 ，vfork 是 
重要 的 ， 但 是 与 fork 相 比 ， 它 的 性 能 优势 不 再 存在 ， 并 且 使 用 它 是 危险 的 ， 所 以 建议 不 要 使 
用 它 ， 这 也 是 为 什么 在 对 照 表 中 将 其 标 上 了 “过 时 了 ”。 

提高 fork 和 exec 效 率 的 更 新 的 方法 是 posix_spawn， 它 是 1999 年 POSIX 更 新 版 的 一 部 分 。 
因为 它 的 最 终结 果 是 子 进程 运行 一 个 不 同 的 程序 ， 所 以 避免 了 vfork 的 问题 。 它 不 提供 单个 
fork 和 exec 所 具有 的 灵活 性 ， 但 却 能 控制 通常 的 大 多 数 情况 (如 ， 复 制 文件 描述 符 )。 
posix_spawn 的 真正 目的 是 : 当 实时 系统 交换 非常 缓慢 并 且 硬 件 缺乏 动态 地 址 转换 功能 时 ， 为 
以 子 进程 调用 程序 提供 一 个 高 效 的 方法 。 尽 管 在 这 类 实时 系统 中 ， 设 计 者 认为 posix_sPawn 必 
须 用 系统 调用 来 实现 ， 但 也 可 以 利用 fork 和 exec 以 库 函 数 的 方式 来 实现 (练习 5.8)。 

现在 是 讨论 标准 C 函 数 system 的 好 时 候 了 : 


system 一 一 运行 命令 
#include <stdlib.h> 


int system( 
const char *command /* command */ 


) 
/* Returns exit status or -1 on error (sets errno) */ 





O 并 发 读 和 写 相同 变量 的 两 个 进程 与 线程 相似 ， 具 有 相同 的 潜在 危险 。5.17 节 还 有 更 多 解释 * 
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这 个 函数 通过 传递 command 参 数 作为 一 个 shell 命 令 行 ， 并 跟 在 shell 的 一 个 exec 之 后 执行 
fork。 在 程序 中 执行 命令 行 是 一 种 很 方便 的 方法 ， 但 它 效率 不 高 (总 是 要 调用 shell)， 也 没 
有 跟 在 exec 后 单独 执行 fork 或 者 posix_spawn 的 灵活 性 。 


5.6 实现 shell (版 本 2) 


现在 ， 把 fork 和 execvp 放 在 一 起 使 用 ， 以 使 前 面 章节 中 的 shell 更 有 用 一 一 在 运行 一 个 
命令 之 后 不 再 只 是 退出 ， 而 是 对 另 一 个 命令 进行 提示 ! 用 函数 execute2 来 取代 execute: 
static void execute2(int argc, char *argv[]) 


t 
pid_t pid; 


switch (pid = fork()) { 

case -1: /* parent (error) */ 
EC_FAIL 

case 0: /* child */ 
execvp(argv(0), argv); 
EC_FAIL 

default: /* parent */ 
ec_negl( wait (NULL) ) 

) 

return; 


EC_CLEANUP_BGN 
EC_PLUSH ("execute2") 
if (pid == 0) 
exit (EXIT_FAILURE) ; 

EC_CLEANUP_END 

) 

在 5.8 节 将 会 给 出 wait 的 全 部 细节 ， 而 现在 呢 ， 仅 仅 需要 知道 在 返回 之 前 它 需要 等 待 子 进 
程 终 止 。 

该 函数 对 来 自 Eork 和 wait 的 错误 与 来 自 execvp 的 错误 的 处 理 方式 不 同 。 如 果 fork 或 
wait 的 返回 值 为 -1， 那 么 在 父 进程 中 只 需 输出 错误 信息 (用 EC_FLUSH) 然后 返回 。 调 用 者 
(在 上 一 节 中 的 main) 会 再 次 提示 用 户 ， 而 这 正 是 我 们 想 要 的 一 一 一 个 shell 不 应 该 仅仅 由 于 一 
个 错误 便 终止 。 但 如 果 execvP 返 回 , 我 们 正 处 在 子 进程 中 ， 而 不 是 父 进程 中 ,那么 最 好 退出 。 
否则 ， 子 进程 将 继续 运行 并 且 将 会 出 现 两 个 shell 命 令 提 示 。 如 果 我 们 确实 试图 显示 一 个 命令 ， 
两 个 进程 将 竞争 字符 ， 进 而 每 个 进程 得 到 一 些 字符 ， 因 为 一 个 单独 的 字符 只 能 被 读 一 次 。 这 
可 能 会 引起 严重 的 结果 。 例 如 ， 如 果 要 输出 rm t* ， 那 么 可 能 会 一 个 shel 读 取 zm * ， 而 另 一 
个 shell 读 取 t。 

下 面 将 解释 调用 _exit 而 不 用 exit 的 原因 。 


5.7 exit 系统 调用 和 进程 终止 

严格 地 说 ， 有 四 种 让 进程 终止 的 方法 : 

1) 调用 exit。 从 main 返 回 一 个 值 和 用 这 个 值 作 为 参数 调用 exit 是 一 样 的 ， 而 无 返回 值 
时 和 返回 0 一 样 。 

2) 调用 _exit 或 者 它 的 等 效 调用 一 -_Exit， 稍 后 将 会 简要 解释 exit 的 这 两 个 变 体 。 


3) 接收 一 个 终止 信号 。 
4) 系统 崩溃 。 从 电源 故障 到 操作 系统 漏洞 的 任何 东西 引起 的 系统 崩 汗 。 
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本 节 将 介绍 前 两 个 方法 ， 在 第 9 章 中 讲述 终止 信号 ， 实 际 上 没有 讲述 造成 进程 停止 的 系统 
iit. 

exit 的 三 个 变 体 之 间 的 区 别 在 于 : 

。_exit 和 _Exit 的 行为 完全 相同 ， 尽 管 技 术 上 讲 ，_exit 来 自 UNIX 而 _Exit 来 自 标准 

C。 从 现在 起 将 只 涉及 _exit， 并 且 可 以 假定 所 说 的 关于 它 的 任何 内 容 也 都 能 应 用 于 

Exit. 

cexit (没有 下 划 线 的 ) 也 来 自 于 标准 C。 它 能 完成 所 有 _exit 所 能 完成 的 功能 ， 并 且 

也 能 完成 一 些 更 高 层次 的 清理 工作 ， 包 括 由 atexit ( 见 1.3.4 节 ) 注册 的 不 管 怎样 都 要 

调用 的 函数 ， 以 及 刷新 标准 IO 缓冲 区 ， 就 像 调 用 了 fflush 或 fclose。(_exit 是 否 

刷新 缓冲 区 由 实现 规定 ， 因 此 不 用 考虑 它 ) 。 

因为 exit 是 _exit 的 一 个 超 集 ， 所 以 这 里 所 说 的 一 切 关于 后 者 的 东西 也 适用 于 前 者 ， 所 
以 大 多 数 时 候 只 讨论 _exit。 

通常 ， 在 一 个 还 没有 执行 exec 的 子 进程 中 可 以 调用 _exit， 代 替 exit， 就 像 前 一 节 中 
给 出 的 execute2 那 样 ， 这 是 因为 无 论 对 继承 的 子 进程 如 何 清理 ， 通 常 仅 做 一 次 。 但 真实 情 
况 并 不 是 总 能 如 此 ， 所 以 用 户 不 得 不 检查 每 种 情况 来 决定 哪个 是 合适 的 。 在 大 多 数 情况 下 ， 
当 某 个 exec 和 覆盖 了 子 进程 时 ， 程 序 会 重新 开始 ， 所 以 当 它 退 出 时 ， 无 论 做 什么 清理 都 是 可 以 
的 。 任 何 来 自 父 进程 的 缓冲 区 或 atexit 函 数 都 已 经 消失 很 和 人 了。 

如 果 读 者 正在 使 用 “ec” 宏 指令 进行 错误 检查 ， 像 本 书 这 样 ， 那 么 一 定 要 记 住 ， 如 果 使 
用 _exit 终 止 (1.4.2 节 )， 那 么 不 会 调用 由 atexit 注 册 的 函数 ， 所 以 要 在 注册 的 函数 中 做 错 
误 消 息 的 自动 显示 和 函数 追溯 。 尽 管 只 有 子 进程 调用 _exit， 但 在 前 一 节 的 execute2 中 ， 
通过 在 父 进程 和 子 进程 中 都 使 用 EC_FLUSH 宏 指令 解决 了 这 个 问题 。 

下 面 是 exit 函 数 的 对 照 表 。 注 意 ， 调 用 了 两 个 不 同 的 包含 文件 : 


exit 一 一 不 清理 就 终止 进程 


#include <unistd.h> 


void _exit( 
int status /* exit status */ 


My 
/* Does not return */ 


Exit 一 一 不 清理 就 终止 进程 
#include <stdlib.h> 


void _Exit( 
int status /* exit status */ 
) 


/* Does not return */ 


exit 一 一 清理 并 终止 进程 
#include <stdlib.h> 


void exit( 

int status /* exit status */ 
de 
/* Does not return */ 





O 当 电源 故障 时 一 些 计算 机 会 向 进程 发 送信 号 ， 可 以 把 这 种 情况 作为 第 三 种 情况 
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_exit 和 其 他 两 个 变 体 利用 等 于 status 最 右边 (最 不 重要 的 ) 字 节 的 状态 代码 终止 调用 
它 的 进程 。 这 样 会 产生 许多 额外 的 副作用 ; 这 里 列 出 了 一 些 最 主要 的 ， 也 可 以 在 [SUS2002] 中 
查找 完整 的 清单 。 通 常 这 些 副作用 确实 会 作用 在 进程 终止 上 ( 崩溃 除外 ): 

“关闭 所 有 打开 的 文件 描述 符 。 

。 就 像 4.3 节 中 所 解释 的 ， 如 果 进 程 是 控制 进程 (会话 头 )， 那 么 这 个 会 话 会 失去 它 的 控制 

终端 。 而且 ， 这 个 会 话 中 的 每 个 进程 会 得 到 一 个 挂 起 (SIGHUP) 信号 ， 如 果 进程 没有 
得 到 或 忽略 了 这 个 信和 号， 那么 也 会 引起 它们 终止 。 

。 以 某 种 方式 通知 父 进 程 的 退出 状态 ， 这 会 在 下 一 节 中 说 明 。 

。 无 论 如 何 子 进程 都 不 会 受到 直接 影响 ， 除 非 它们 的 新 父 进程 是 专门 的 系统 进程 ， 并 且 如 
果 它 们 执行 了 getppid ( 见 5.13 节 ) 系统 调用 ， 那 么 它们 将 得 到 该 系统 进程 的 进程 ID 
(通常 是 1)。 

退出 进程 的 父 进程 通过 某 个 wait 系 统 调用 接收 到 它 的 状态 代码 ， 这 些 wait 系 统 调用 将 会 
在 下 一 节 介 绍 。 状 态 代 码 是 从 0 到 255 的 数字 。 按 惯例 ， 状 态 代码 0 意味 着 成 功 终止 ， 而 非 0 意 
味 着 某 种 非 正常 终止 ， 这 些 都 是 编写 退出 程序 时 已 经 定义 好 的 。 定 义 了 两 个 标准 的 宏 指令 ， 
本 书 的 很 多 例子 中 都 使 用 了 它们 : EXIT_SUCCESS 被 定义 为 0， 而 EXIT_FAILURE 被 定义 为 
某 些 非 0 值 ， 通 常 是 1!。 使 用 宏 代替 0 和 1 这 样 的 整数 会 使 程序 可 读 性 更 好 ， 这 便 是 本 书 为 什么 
要 这 么 处 理 的 原因 。 

一 旦 进程 以 exit 变 体 或 信号 终止 ， 那 么 它 会 停止 执行 ， 但 是 不 会 完全 消失 ， 直 到 它 的 退 
出 状态 已 经 被 报告 给 了 它 的 父 进程 ， 除 非 系统 已 经 确定 (以 下 节 介 绍 的 方式 ) 它 的 父 进程 对 
此 状态 不 关心 。 一 个 还 没有 被 报告 状态 的 终止 进程 叫做 僵尸 (zombie). © 


5.8 wait、waitpid 和 waitid 系 统 调 用 


wait、waitpid 或 者 waitid 等 待 子 进程 改变 状态 (停止 、 继 续 或 终止 )， 并 且 重 新 得 
到 该 进程 的 状态 。 前 一 节 中 解释 了 如 何 终止 进程 ， 在 4.3 节 中 解释 了 怎样 停止 和 继续 进程 。 这 
里 首先 介绍 waitpid， 然 后 介绍 其 他 两 个 变 体 。 

到 目前 为 止 ， 本 节 和 下 一 节 将 描绘 的 多 个 特征 仅 存 在 于 X/Open 相 容 系统 ， 在 FreeBSD 和 
Linux 中 还 没有 。 它 们 以 符号 “[X/Open]” 来 标识 。( 在 1.2 节 和 1.5.1 节 中 讨论 了 X/Open; 目前 
尽管 Linux 已 宜 布 是 X/Open 系统 ， 但 当 用 特征 测试 宏 对 它 进行 测试 时 ， 它 并 没有 本 节 中 将 要 描 
绘 的 X/Open 功能 .) 


waitpid 一 一 等 待 子 进程 改变 状态 
#include <sys/wait.h> 


pid_t waitpid( 
pid_t pid, /* process or process-group ID */ 
int *statusp, /* pointer to status or NULL */ 
int options 7* options (see below) */ 


) 
/* Returns process ID or 0 on success or -1 on error (sets errno) */ 





可 以 在 以 下 4 种 情况 中 使 用 pid 参 数 : 
>0 等 待 具有 进程 ID 的 子 进程 。 


O 非常 适合 zombie 的 字典 定义 为 : 一 个 所 谓 行 尸 走 肉 的 、 具 有 最 低 智能 思考 的 人 。( Webster's New Collegiate 
Dictionary.6" ed. [Springfield Mass.:G. &C.Merriam Co.,1960]). 
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-1 等待 某 个 子 进程 。 

o 当 调 用 进程 时 ， 等 待 属于 相同 进程 组 的 某 个 子 进程 。 

<-1 在 进程 组 中 等 待 某 些 子 进程 ， 它 们 的 进程 组 ID 是 -Pid。 

在 4.3 节 对 进程 组 进行 过 解释 。 典 型 地 ， 在 自己 所 属 的 进程 组 中 运行 管道 的 shell， 在 等 待 
管道 完成 时 ， 会 将 pid 设 置 为 进程 组 ID 的 负数 ， 这 样 管道 中 的 任意 进程 都 会 使 aitpid 返 回 。 

当 因 为 匹配 pid 参数 的 子 进 程 改变 了 状态 ， 而 使 waitpid 返 回 时 ， 返 回 的 便 是 子 进程 ID 。 
下 面 介绍 在 WNOHANG 选 项 之 下 返回 值 是 0 的 情况 。 

仅 能 等 待 那些 直接 的 (用 fork 创 建 的 ) 子 进程 。 孙 子 进程 可 能 就 不 能 被 等 待 ， 即 使 它们 
的 父 进程 (直接 的 子 进程 ) 已 经 终止 。 像 前 一 节 中 所 解释 的 那样 ， 孤 儿 进程 会 被 专门 的 系统 
进程 继承 ， 而 不 是 被 祖辈 进程 继承 。 

通常 ， 进 程 能 等 待 其 创建 的 每 个 子 进程 ， 这 是 很 重要 的 一 一 否则 终止 了 的 子 进程 会 像 仿 己 
一 样 存留 在 系统 之 中 ， 直 至 父 进 程 终止 。 在 某 些 时 候 ， 继 承 它们 的 系统 进程 为 了 本 身 的 利益 
会 等 待 和 清理 它们 。 当 有 些 进程 很 长 一 段 时 间 都 不 终止 时 (有 时 会 数 月 )， 那 么 长 时 间 保持 着 
僵尸 进程 真 的 会 防 碍 系统 表 。 如 果 等 待 太 麻烦 ， 那 么 进程 可 以 使 用 信号 删除 僵尸 进程 ， 这 些 
将 在 下 一 节 中 介绍 。 

更 改 状 态 的 子 进 程 叫 作 可 等 待 (waitable) 子 进程 ， 它 至 多 能 从 waitPid 中 得 到 一 个 返回 。 
换 句 话说 ， 一 个 可 等 待 子 进程 是 曾经 被 等 待 过 了 的 ， 不 可 以 被 等 待 了 。 这 意味 着 如 果 程 序 的 一 
部 分 得 到 了 状态 并 且 发 现状 态 不 是 从 所 期 望 的 进程 中 得 来 的 ， 那 么 就 没有 办 法 将 结果 填 回 到 系 
统 中 去 ， 所 以 一 些 其 他 的 waitpid 会 较 晚 获得 那个 进程 的 状态 。( 但 waitid 能 够 做 到 一 一 请 
看 下 面 内 容 。) 

如 果 执 行 了 waitpid 并 且 某 个 可 等 待 子 进程 满足 了 pid 规 范 , 那么 waitpid 会 马上 返回 。 
如 果 还 有 一 个 这 样 的 子 进程 ， 但 它 还 没有 改变 状态 ， 那 么 waitpid 会 阻塞 直到 出 现 一 个 合适 
的 可 等 待 子 进程 。 如 果 没 有 任何 子 进程 匹配 bid， 则 waitpid 返 回 -1 并 且 把 errno 设 置 成 
ECHILD。 由 于 pid 完 全 错 了 或 子 进程 已 经 被 等 待 ， 那 么 可 能 会 找 不 到 子 进程 。 如 果子 进程 已 
经 被 等 待 过 了 ， 那 么 是 不 可 以 再 被 等 待 的 (重复 一 遍 ， 请 看 waitid， 它 可 以 )。 

如 果 statusp 是 非 NULL 值 ， 那 么 它 所 指向 的 整数 将 被 设置 成 子 进程 的 状态 。 这 是 
_exit 或 exit (如 果 这 是 进程 用 来 终止 的 方法 ) 的 子 进程 参数 和 指示 进程 怎么 终止 或 停止 的 
代码 的 组 合 。 可 以 使 用 宏 指令 来 解释 整数 : 

WIFEXITED (status) 如 果子 进程 正常 终止 (用 _exit 或 exit9)， 则 为 true。 

WEXITSTATUS (status) 如 果 WIFEXITED 为 真 ， 则 为 指向 _exit 或 exit 参 数 的 低 8 位 。 

WIFSIGNALED(status) 如 果子 进程 (由 于 信号 ) 非 正 常 终止 ， 则 为 true。 

WTERMSIG(status) 如 果 WIFSIGNALED 为 真 ， 则 为 引起 终止 的 信号 编号 。 

WIFSTOPPED(status) 如 果子 进程 停止 ， 则 为 true; 仅 在 WUNTRACED 选 项 被 设 定 
时 可 用 。( 见 下 面 ) 

WSTOPSIG(status) 如 果 WIFSTOPPED 为 真 ， 则 为 引起 子 进程 停止 的 信号 编号 。 

WIFCONTINUED(status) ”如果 进程 继续 则 为 真 ， 仅 仅 在 WCONTINUED 选 项 被 设 定时 
可 用 [X/Open]。 

WCOREDUMP (status) 如 果 产生 了 信息 转 储 文件 [在 UNIX 中 叫做 “核心 转 储 ”(core 
dump) ]， 则 为 真 ; 这 种 转 储 有 时 候 对 事后 分 析 有 用 ( 宏 指 令 是 非 标准 化 的 ， 但 通常 已 经 实 


现 )。 


© 记 住 ，_EBxit 与 _exit 是 相同 的 ， 从 main 返 回 与 调用 exit 也 是 相同 的 。 
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最 后 一 个 参数 是 options ， 它 是 一 个 或 多 个 的 标志 的 或 操作 : 

WCONTINUED 除了 那些 已 终止 的 子 进程 外 ， 报 告 那些 仍 继续 的 子 进程 。[X/Open] 
WNOHANG 如 果 不 能 立即 得 到 状态 ， 就 不 等 待 子 进程 ; 返回 0 而 不 是 进程 ID。 
WUNTRACED 除了 那些 已 终止 的 子 进程 外 ， 报 告 那些 已 经 停止 的 子 进程 。 

下 面 是 一 些 有 关 waitpid 用 法 的 例子 : 


/* Wait for child pid to terminate and get its status. */ 
ec_negl( waitpid(pid, &status, 0) ) 


/* Wait for any child to terminate, without getting its status. */ 
ec_negl( pid = waitpid(-1, NULL, 0) ) 


/* Report on any child in process group pgid to terminate or stop, 
and get its status. Don’t wait if no status is available immediately. */ 
ec_negl( pid = waitpid(-pgid, &status, WNOHANG | WUNTRACED) ) 


下 面 是 一 个 例 程 ， 它 创建 了 3 个 子 进程 ， 每 一 个 子 进程 的 终止 方式 都 不 同 。 对 于 每 个 终止， 
都 报告 了 状态 。 


int main(void) 
{ 
pid_t pid; 


/* Case 1: Explicit call to _exit */ 
if (fork() == 0) /* child */ 
exit (123); 
/* parent */ 
ec_false( wait_and_display() ) 





/* Case 2: Termination by kernel */ 
if (fork() == 0) { /* child */ 
int a, b 





a=l/b; 
exit (EXIT_SUCCESS) ; 
d 
/* parent */ 
ec_false( wait_and_display() ) 


/* Case 3: External signal */ 

if ((pid = fork()) == 0) { /* child */ 
sleep(100); 
exit (EXIT_SUCCESS) ; 

} 

/* parent */ 

ec_negl( kill(pid, SIGHUP) ) 

ec_false( wait_and_display() ) 


exit (EXIT_SUCCESS) ; 


EC_CLEANUP_BGN 

exit (EXIT_FAILURE) ; 
EC_CLEANUP_END 
} 


static bool wait_and_display (void) 


© 应 当 叫 作 WSTOPPED， 但 是 由 于 历史 的 原因 而 称 作 了 WUNTRACED- 
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pid_t wpid; 
int status; 


ec_negl( wpid = waitpid(-1, &status, 0) ) 
display_status(wpid, status); 
return true; 


EC_CLEANUP_BGN 
return false; 

EC_CLEANUP_END 

} 


void display_status(pid_t pid, int status) 
{ 
if (pid != 0) 
printf ("Process tld: *, (long)pid); 
if (WIFEXITED(status) ) 
printf ("Exit value d\n", WEXITSTATUS(status)); 
else { 
char *desc; 
char *signame = get_macrostr("signal", WTERMSIG(status), &desc); 
if (desc(0] == '?') 
desc = signame 
if (signame(0] == '?') 
printf ("Signal #%d", WTERMSIG(status)); 
else 
printf ("%s", desc); 
if (WCOREDUMP(status)) 
printf(" - core dumped"); 
if (WIFSTOPPED(status) ) 
printf(* (stopped)"); 
#if defined (_XOPEN_UNIX) && !defined(LINUX) 
else if (WIFCONTINUED(status) ) 
print£(" (continued) *); 





endif 
printf(*\n"); 
} 
) 
如 上 所 述 ， 因 为 Linux 与 X/Open 不 兼容 ， 所 以 下 列 代码 行 应 在 Linux 上 进行 单独 测试 ;: 


#if defined(_XOPEN_UNIX) && !defined(LINUX) 


函数 get_macrostr 提 供 了 信号 编号 的 可 打印 版 本 (连同 其 他 内 容 一 道 )， 并 且 它 的 功能 
和 1.4.1 节 中 的 errsymbol 很 相似 。 如 果 读 者 感 兴趣 ， 可 以 到 网 站 [AUP2003] 上 查找 相关 代码 。 
下 面 是 输出 : 


Process 9585: Exit value 123 
Process 9586: Erroneous arithmetic operation - core dumped 


Process 9587: Hangup 
如 输出 所 示 ， 第 一 种 情况 中 ， 子 进程 调用 _exit 终 止 自己 , 并 传递 退出 值 123。 第 二 种 情况 下 ， 
当 子 进程 试图 被 0 除 时 ，SIGFPE ( 浮 点 错误 ) 信号 终止 了 它 。 第 三 种 情况 下 ， 父 进程 通过 发 
送 STGHUP 信 号 中 止 了 休眠 的 子 进程 。( 发 送信 号 的 kil11 系 统 调用 将 在 9.19 节 介绍 。) 

本 章 后 面部 分 ， 在 下 一 个 shell 版 本 中 将 使 用 display_status 函 数 。 

第 二 个 变 体 是 wait 系 统 调用 ， 它 是 pid 为 -1 并 且 没 有 options 的 waitpid 的 简单 
形式 : 
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wait 一 一 等 待 子 进程 终止 


#include <sys/wait.h> 


pidt wait( 
int *statusp, /* pointer to status or NULL */ 


i 
/* Returns process ID or -1 on error (sets errno) */ 





因为 当 waitpid 的 pid 设 置 为 -1 时 ，wait 和 waitpid 会 等 待 任 一 子 进程 ， 所 以 当 函 数 
作为 较 大 程序 的 一 部 分 ， 要 创建 一 个 需要 等 待 的 子 进程 函数 时 ， 用 它们 是 不 合适 的 。 或 许 ， 
它 可 能 会 意外 地 获得 一 些 其 他 子 进程 的 返回 值 ， 但 由 于 作为 子 进程 只 能 等 待 一 次 ， 所 以 这 将 
会 剥夺 程序 的 其 他 部 分 等 待 那个 子 进程 的 能 力 ， 从 而 引起 带 在 的 混乱 。 较 好 的 方法 是 使 用 
waitpid 等 待 某 个 指定 的 子 进 程 或 至 少 一 个 进程 组 的 成 员 。 正 因 如 此 ， 除 了 简单 程序 使 用 
wait 以 外 ， 其 他 程序 很 少 使 用 。 在 创建 子 进 程 的 库 函 数 中 ， 决 不 要 使 用 它 。 

但 假定 一 个 进程 有 两 个 子 进程 ， 并 且 不 能 确定 哪个 进程 会 首先 终止 。 如 果 所 要 关心 的 只 
是 等 待 两 个 进程 都 终止 ， 那 么 可 以 简单 地 先 等 待 它们 当中 的 任 一 个 进程 先 终止 ， 然 后 当 那 个 
waitpid 的 调用 返回 时 ， 开 始 等 待 另 一 个 进程 。 或 者 ， 父 进程 能 够 处 理 自己 的 工作 ， 同 时 周 
期 性 地 为 每 个 带 有 WNOHANG 选 项 的 子 进程 调用 waitpid。 但 就 像 上 面 所 说 的 ， 父 进程 不 应 该 
执行 阻塞 的 waitpid 调 用 (Pid 参 数 为 -1)， 除 非 父 进程 能 够 保证 没有 其 他 的 子 进程 。 通 常 
一 个 大 的 、 复 杂 的 应 用 程序 的 各 部 分 来 自 不 同 的 工作 组 (例如 ， 图 像 库 ， 数 据 库 接口 )， 所 以 
不 能 做 那样 的 保证 。 如 果 一 个 子 进程 能 把 进程 ID 数组 传递 给 某 个 wait 变 体 ， 那 会 是 很 好 的 ， 
但 事实 上 没有 进程 能 办 到 。 

第 三 个 变 体 waitid 是 伴随 SUS1 进 入 UNIX 的 ， 到 写 这 本 书 为 止 ，Linux 和 FreeBSD 中 不 
存在 该 变 体 。9 它 提供 了 一 个 非常 重要 的 新 特征 当 进程 保持 等 待 的 时 候 ， 用 户 能 够 得 到 进 
程 的 状态 ， 所 以 如 果 询 问 了 错误 进程 ， 也 不 会 有 任何 害处 。 另 外 ， 与 waitpid 或 wait 相 比 ， 
它 提供 了 更 多 的 信息 。 如 下 是 对 照 表 : 


waitid 一 一 等 待 子 进程 改变 状态 [X/Open] 


#include <sys/wait.h> 


int waitid( 
idtype_t idtype, * interpretation of id */ 
id_t id, * process or process-group ID */ 
siginfo_t *infop, * returned info */ 
int options * options */ 


ve 
/* Returns 0 on success or -1 on error (sets errno) */ 





siginfo_t 一 一 waitid 的 结构 令 


typedef struct { only waitid-relevant members shown */ 
int si_code; code (see below) */ 
pid_t si_pid; * child process ID */ 
uid_t si_uid; * real user ID of child process */ 
int si_status; exit value or signal */ 
} siginfo_t; 





O 在 我 用 的 Linux 版 本 中 好 像 只 有 部 分 实现 了 (看 起 来 是 实现 了 ， 但 仅 定义 了 waitpid 的 选项 ， 而 且 没 有 联 
机 资料 )。 读 者 必须 查看 自己 的 版 本 
© 实时 信号 扩展 (Realtime Signals Extension) 对 该 结构 进行 了 扩充 ， 见 9.5 节 。 
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waitid 的 第 一 个 参数 idtype 可 为 下 列 之 一 : 

P_PID 等 待 进程 ID 为 1d 的 子 进程 (就 像 pid>0 时 的 waitpid)。 

P_PGID 等 待 进程 组 id 中 的 某 个 子 进程 (就 像 pid<-1 时 的 waitpid)。 

P_ALL 等 待 某 个 子 进程 ( 像 pid= =-1 时 的 waitpid) ; 忽略 id。 

没有 与 pid= =0 时 的 waitpid 直 接 相等 的 idtype， 但 当 waitid 的 idtype 参 数 为 
P_PID， 并 且 调 用 者 的 进程 组 ID 等 于 id 值 时 ， 便 等 价 于 这 种 情况 。 

waitid 的 options 参 数 是 一 个 或 多 个 标志 的 或 操作 : 

WEXITED 报告 那些 已 经 退出 的 进程 (对 于 没有 此 标志 的 waitpid， 人 情况 就 一 直 这 样 ) 。 

WSTOPPED 报告 那些 停止 了 的 子 进程 (与 带 有 WUNTRACED 标 志 的 waitpid 相 似 )。 

WCONTINUED 报告 那些 继续 执行 的 子 进程 (与 waitpid 中 的 标志 相同 )。 

WNOHANG ”如 果 不 能 立即 得 到 状态 ， 就 不 等 待 子 进程 ， 返 回 0 (与 waitpid 中 的 标志 相 
同 )。 

WNOWAIT 保留 已 经 报告 的 进程 是 可 用 的 ， 以 便 随后 的 waitid (或 其 他 变 体 ) 调用 可 以 
使 用 它 。 

通过 infop 参 数 ，waitid 所 能 提供 的 信息 比 waitpid 要 多 。 该 参数 指向 的 是 
siginfo_t 结 构 ;在 siginfo_t 的 对 照 表 中 对 waitid 的 相关 成 员 的 使 用 进行 了 介绍 。 在 返 
回 的 时 候 ， 子 进程 ID 存 在 于 si_pid 成 员 中 。 用 户 能 够 通过 检查 si_code 来 查看 子 进程 终止 
的 原因 ; 最 常 出 现 的 代码 如 下 : 

CLD_EXITED 使 用 _exit 或 exit 退 出 的 。 

CLD_KILLED 非 正常 终止 (通过 信号 )。 

CLD_DUMPED 非 正常 终止 并 且 创建 了 一 个 信息 转 储 文件 (UNIX 中 叫 作 “ 核 心 ”文件 )。 

CLD_STOPPED 已 经 停止 。 

CLD_CONTINUED 已 经 继续 。 

如 果 代 码 为 CLD_EXITED， 那 么 si_status 成 员 会 保持 被 传递 给 _exit 或 exit 的 编号 。 
另外 ， 如 果 某 个 信号 引起 了 状态 改变 ， 那 么 si_status 的 值 将 是 这 个 信号 的 编号 。 

下 面 两 个 函数 分 别 为 wait_and_display 和 display_status， 它 们 来 自 先 前 的 
waitpid 示 例 ， 这 里 用 waitid 将 其 重新 编写 : 

static bool wait_and_display(void) 


{ 
siginfo_t info; 


ec_negl( waitid(P_ALL, 0, &info, WEXITED) ) 
display_status(&info) ; 
return true; 


EC_CLEANUP_BGN 
return false; 

EC_CLEANUP_END 

} 


void display_status(siginfo_t *infop) 
{ 
printf ("Process %1d terminated:\n*, (long) infop->si_pid); 
printf("\tcode = %s\n", 
get_macrostr("sigchld-code", infop->si_code, NULL)); 
if (infop->si_code == CLD_EXITED) 
printf ("\texit value = td\n", infop->si_status); 
else 
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printf("\tsignal = s\n", 
get_macrostr("signal, infop->si_status, NULL)); 
} 


输出 如 下 : 


Process 9580 terminated: 
code = CLD_EXITED 
exit value = 123 

Process 9581 terminated: 
code = CLD_DUMPED 
signal = SIGFPE 

Process 9582 terminated: 
code = CLD_KILLED 
signal = SIGHUP 


当 使 用 waitid 时 ， 出 现 了 无 意 中 得 到 错误 子 进程 报告 的 问题 ， 关 于 这 个 问题 ， 可 以 利用 
下 面 的 一 个 算法 避免 该 问题 : 

1) 执行 带 有 P_ALL 和 WNOWAIT 选项 的 waitid。 

2) 如 果 返 回 的 进程 ID 不 是 程序 所 关心 的 那 一 部 分 ， 那 么 返回 到 第 一 步 。 

3) 如 果 进 程 ID 是 有 用 的 ， 那 么 重新 为 那个 不 具有 WNOWRAIT 选 项 的 进程 ID 激活 waitid 
(或 者 仅仅 使 用 waitpid)， 并 清除 该 进程 ID ， 以 便 使 其 不 再 是 可 等 待 的 。 

4) 如 果 正 在 等 待 某 些 不 可 能 被 等 到 的 子 进程 ， 那 么 返回 到 第 一 步 。 

使 用 waitid 的 唯一 问题 是 ， 在 SUS1 以 前 的 系统 中 它 都 是 不 可 用 的 ， 到 写本 书 为 止 这 些 
系统 包括 Linux、FreeBSD 和 Darwin。 所 以 在 waitpid 的 讨论 中 必须 使 用 较 多 早期 描述 的 笨拙 
方法 。 

wait、waitpid 和 waitid 的 行为 进一步 受到 了 父 进程 如 何 处 理 SIGCHLD 信 号 的 影响 ， 
具体 内 容 在 下 一 节 中 解释 。 


5.9 信和 号、 终止 和 等 待 


关于 信号 大 部 分 详细 内 容 将 在 第 9 章 中 讨论 ， 但 是 此 时 讨论 SIGCHLD 也 是 有 意义 的 。 
1.1.3 节 中 对 信和 号 的 简明 介绍 足以 理解 这 一 节 内 容 了 ; 如 果 不 能 理解 ， 可 以 先 跳 过 此 节 ， 读 完 
第 9 章 后 再 来 读 。 

就 像 前 一 节 中 所 解释 的 ， 父 进程 使 用 wait 的 某 个 变 体能 够 得 到 已 经 改变 状态 (终止 、 停 
止 或 者 继续 ) 的 子 进程 的 状态 。 如 果子 进程 根本 就 没有 被 等 待 ， 那 么 它 将 保持 可 等 待 状态 
(EPRE) 直到 父 进程 终止 。 

前 面 没有 涉及 到 这 点 ， 但 是 一 个 子 进程 改变 状态 时 一 般 会 向 它 的 父 进程 发 送 SIGCHLD 信 
号 。 除 非 父 进程 已 经 做 了 其 他 的 安排 ， 否 则 默认 的 行为 是 忽略 该 信号 ， 这 也 是 为 什么 在 先前 
的 例子 中 它 并 不 重要 的 原因 。 

如 果 父 进程 需要 知道 子 进程 状态 的 变化 ， 那 么 它 便 可 以 捕获 那个 信号 。 不 幸 的 是 ， 父 进 
程 没 有 被 告知 是 哪个 子 进程 发 出 的 该 信号 。 如 果 它 使 用 某 一 个 wait 的 变 体 来 获得 这 个 进程 
ID ， 那 么 就 会 像 前 一 节 所 解释 的 那样 ， 有 捕获 错误 进程 状态 的 危险 ， 因 为 一 些 其 他 的 进程 可 
能 已 经 在 发 送信 号 和 调用 wait 变 体 的 中 间 改 变 了 状态 。 安 全 的 方法 是 使 用 waitid ( 像 前 一 
节 中 所 解释 的 ) 或 使 用 waitpid 一 个 一 个 地 检查 所 有 可 能 的 子 进程 。 


日 ”除非 使 用 实时 信号 扩展 的 高 级 特征 ， 但 是 这 个 扩展 通常 不 可 用 。 
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对 于 SIGCHLD 信 号 ,通过 调用 带 有 SA_NOCLDWAIT 标 志 的 sigaction， 父 进程 能 够 防 
止 非 等 待 子 进程 变 成 僵尸 ( 变 成 可 等 待 的 ) ， 而 根本 不 用 等 待 子 进程 。 然 后 当 子 进程 终止 时 ， 
其 状态 便 被 简单 地 抛弃 ， 因 此 父 进程 得 不 到 它 (并 且 假 定 它 也 不 关心 ) 。 如 果 父 进程 执行 了 
wait 或 waitpid， 那 么 无 论 参数 取 什 么 值 (其 至 是 WNOHANG)， 它 都 会 阻塞 ， 直 到 所 有 的 子 
进程 终止 ， 然 后 将 errno 设 置 为 ECHILD， 并 返回 -1。 如 果 父 进程 捕获 了 SIGCHLD 信 号 ， 那 


么 它 仍 会 被 告知 。 

如 果 父 进程 明确 地 设置 忽略 SIGCHLD 信 号 (比如 说 ， 带 有 SIG_IGN 标 志 调用 
sigaction), 与 接受 默认 动作 相反 ， 其 结果 和 使 用 SA_NOCLDWAIT 标 志 [X/Open] 是 一 样 的 。 
虽然 并 不 是 所 有 的 系统 都 支持 它 ， 但 设置 SA_NOCLDWAIT 标 志 也 是 个 好 方法 ， 这 一 点 得 到 了 


广泛 支持 。 


5.10 实现 shell (版 本 3) 


使 用 5.8 节 介绍 的 display_status 函 数 的 waitpid 版 本 ， 可 以 改进 5.6 节 中 的 
execute2: 


static void execute3(int argc, char *argv[]) 
{ 

pid_t pid; 

int status; 


switch (pid = fork()) { 
case -1: /* parent (error) */ 
EC_FAIL 
case 0: /* child */ 
execvp(argv(0], argv); 
EC_FAIL 
default: /* parent */ 
ec_negl( waitpid(pid, &status, 0) ) 
display_status(pid, status); 
) 


return; 


EC_CLEANUP_BGN 
EC_FLUSH ("execute3") 
if (pid == 0) 
exit (EXIT_FAILURE) ; 
EC_CLEANUP_END 
} 


下 面 是 部 分 输出 。 命 令 fpe 除 了 试图 被 0 除 之 外 不 做 任何 事情 ， 其 仅仅 是 为 此 例子 而 写 的 : 


$ sh3 

@ date 

Tue Feb 25 12:49:52 MST 2003 

Process 9954: Exit value 0 

@ echo The shell is getting better! 

The shell is getting better! 

Procéss 9955: Exit value 0 

@ fpe 

Process 9956: Erroneous arithmetic operation - core dumped 
@ EOT $ 


其 中 字母 E0T 表 示 Ctrl-d 的 输入 位 置 。 
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5.11 获得 用 户 ID 和 组 ID 


有 4 个 系统 调用 可 以 分 别 用 来 得 到 实际 用 户 ID、 有 效用 户 ID、 实 际 组 ID 和 有 效 组 ID (在 
1.1.5 节 中 已 经 解释 了 这 些 概念 ): 


getuid 一 一 得 到 实际 用 户 ID 


#include <unistd.h> 


uid_t getuid(void) ; 
/* Returns user ID (no error return) */ 


geteuid -一 得 到 有 效用 户 ID 


#include <unistd.h> 


uid_t geteuid(void) ; 
/* Returns user ID (no error return) */ 


getgid 一 一 得 到 实际 组 ID 
4#incIude <unistd.h> 


gid_t getgid(void) ; 
/* Returns group ID (no error return) */ 


getegid 一 一 得 到 有 效 组 ID 


#include <unistd.h> 


gid_t getegid(void); 
/* Returns group ID (no error return) */ 





用 户 ID 或 组 ID 仅仅 是 一 些 数字 。 如 果 需 要 名 称 ， 则 必须 调用 3.5.2 节 讲述 的 getpwuid 或 
getgrgid。 下 面 是 示例 程序 ， 它 实现 了 显示 实际 用 户 ID、 有 效用 户 ID、 实 际 组 ID 和 有 效 组 


ID 的 功能 : 

int main(void) 

{ 
uid_t uid; 
gid_t gid; 
struct passwd ‘pwd; 
struct group *grp; 
uid = getuid( 


ec_null( pwd = getpwuid(uid) ) 
printf£("Real user = $ld (%s)\n", (long)uid, pwd->pw_name) ; 





uid = geteuid(); 


ec_null( pwd = getpwuid(uid) ) 
printf ("Effective user = %1d (%s)\n", (long)uid, pwd->pw_name) ; 


gid = getgid(); 
ec_null( grp = getgrgid(gid) ) 
printf("Real group = %1d (%s)\n", (long)gid, grp->gr_name); 


gid = getegid(); 


ec_null( grp = getgrgid(gid) ) 
printf ("Effective group = tld (%s)\n*, (long)gid, grp->gr_name) ; 


exit (EXIT_SUCCESS) ; 


EC_CLEANUP_BGN 
exit (EXIT_FAILURE) ; 
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EC_CLEANUP_END 
站 


为 了 使 输出 有 意义 ， 改 变 了 程序 文件 (uidgrp) 的 用 户 所 有 者 和 组 所 有 者 ， 而 且 为 用 户 
和 组 打开 了 设置 ID 执行 (set-ID-on-execution ) 位 : 


$ su 
Password: 

# chown adm:sys uidgrp 

# chmod +s uidgrp 

$ uidgrp 

Real user = 100 (marc) 
Effective user = 4 (adm) 
Real group = 14 (sysadmin) 
Effective group = 3 (sys) 
$ 


5.12 设置 用 户 ID 和 组 ID 


改变 实际 用 户 ID、 有 效用 户 ID 、 实 际 组 ID 和 有 效 组 IDp 的 规则 是 很 复杂 的 ， 而 且 根据 进程 
是 否 运行 在 超级 用 户 上 也 有 所 不 同 。 在 解释 这 些 规则 以 前 ， 需 要 说 明 一 下 ， 除 了 进程 当前 的 
实际 用 户 ID 、 有 效用 户 ID、 实 际 组 ID 和 有 效 组 ID 外 ， 内 核 还 保存 了 每 一 个 由 最 近 的 exec 所 
设置 的 初始 有 效用 户 ID 和 组 ID 的 记录 。 这 些 被 叫 作 保存 的 设置 用 户 ID 和 保存 的 设置 组 ID。 

现在 给 出 设置 用 户 ID 的 规则 ， 组 ID 的 设置 具有 相似 的 规则 : 

1) 除了 使 用 exec ( 它 能 够 改变 已 保存 的 ID )， 普 通 的 〈 非 超级 用 户 ) 进程 绝对 不 能 显 式 
地 改变 实际 用 户 ID 或 已 保存 的 ID 。 

2) 普通 进程 能 够 将 有 效 ID 改 变 为 实际 ID 或 已 保存 的 ID 。 

3) 超级 用 户 进程 能 将 实际 用 户 ID 和 有 效用 户 ID 改变 为 任何 用 户 ID 的 值 。 

4) 如 果 超 级 用 户 进程 改变 了 实际 用 户 ID ， 那 么 已 保存 的 ID 也 会 变 为 那个 值 。 

关于 超级 用 户 的 那些 规则 没什么 可 讲 的 (其 他 用 户 也 可 以 做 到 )。 关 于 普通 用 户 的 那 两 条 
规则 实质 上 意味 着 : 如 果 exec 引 起 了 实际 用 户 ID 和 有 效用 户 ID (RAID) 的 改变 ， 那 么 进程 
可 以 在 它们 之 间 来 回 切 换 运行 。 

进程 来 回 往返 是 有 用 的 ， 下 面 是 一 个 场景 : 设想 一 个 实用 函数 Putfile， 它 能 够 在 网 络 
上 的 各 个 计算 机 之 间 传送 文件 。 这 个 实用 函数 需要 访问 仅 管理 用 户 ( 称 它 为 pfadm) 能 够 访问 
的 日 志文 件 。 当 设置 用 户 ID 位 打开 时 ，pfadm 拥 有 该 程序 文件 。 该 程序 文件 开始 运行 并 且 能 访 
间 日 志文 件 ， 因 为 其 有 效用 户 ID 是 pfadm。 然 后 ， 为 了 写实 际 用 户 文件 ， 它 将 有 效用 户 ID 设 
置 成 了 实际 用 户 ID ， 以 便 实 际 用 户 的 权限 允许 控制 访问 。 当 完成 了 上 面 的 工作 后 ， 它 将 有 效 
用 户 ID 重 新 设置 为 pfadm， 让 其 再 次 访问 日 志文 件 。( 如果 没 有 保存 初始 有 效用 户 ID， 就 不 能 
够 将 有 效用 户 ID 重 新 设置 回 原来 的 值 . ) 注意 ， 就 这 个 实用 函数 而 言 ， 似 乎 pfadm 是 专用 的 ， 
但 实际 上 对 内 核 来 说 它 只 是 一 个 普通 用 户 一 一 并 不 是 超级 用 户 。 

现在 讨论 那些 系统 调用 本 身 。 仅 对 普通 用 户 进程 有 用 的 是 seteuid 和 setegid。 


seteuid 一 一 设置 有 效用 户 ID 
#include <unistd.h> 


int seteuid( 
uid_t uid /* effective user ID */ 





ve 
/* Returns 0 on success or -1 on error (sets errno) */ 
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setegid 一 一 设置 有 效 组 ID 


#include <unistd.h> 


int setegid( ` 
gid_t gid /* effective group ID */ 


) 
/* Returns 0 on success or -1 on error (sets errno) */ 





根据 上 面 列 出 的 规则 ， 对 于 普通 用 户 进程 ， 参 数 必须 为 实际 用 户 (RA) ID 或 已 保存 的 
ID。 对 于 超级 用 户 ， 参 数 可 以 是 任意 的 用 户 (RA) ID. 
超级 用 户 可 以 使 用 两 个 额外 的 调用 : 
setuid 一 一 设置 有 效 、 实 际 和 已 保存 的 用 户 ID 
#include <unistd.h> 


int setuid( 
uid_t uid /* real and saved user ID */ 


) 
/* Returns 0 on success or -1 on error (sets errno) */ 


setgid 一 一 设置 有 效 、 实 际 和 已 保存 的 组 ID 
#include <unistd.h> 


int setgid( 
gid_t gid /* real and saved group ID */ 


he 
/* Returns 0 on success or -1 on error (sets errno) */ 





对 于 超级 用 户 ， 参 数 可 以 是 任意 用 户 (RA) ID ， 它 设置 了 实际 的 值 和 已 保存 的 值 。 对 
于 普通 用 户 ， 这 两 个 调用 和 刚才 介绍 的 “e” 版 本 中 所 描述 的 一 样 ， 是 非常 容易 让 人 混淆 的 ， 


所 以 应 该 尽量 避免 使 用 它们 。 
另外 两 个 增加 的 调用 setreuid 和 setregid， 与 已 经 介绍 的 4 个 调用 功能 相 重 又 ， 又 增 


加 了 更 多 混淆 ， 所 以 也 应 该 避免 使 用 它们 。( 在 引入 seteuid 和 setegid 之 前 的 旧 系 统 中 ， 
它们 是 非常 重要 的 。) 


5.13 ”获得 进程 ID 
使 用 这 些 调 用 ， 进 程 可 以 得 到 其 本 身 的 进程 ID 和 其 父 进程 的 进程 ID: 
getpid 一 一 得 到 进程 ID 


#include <unistd.h> 


pid_t getpid(void); 
/* Returns process ID (no error return) */ 


getppid 一 一 得 到 父 进程 ID 


#include <unistd.h> 


pidit getppid(void); 
7* Returns parent process ID (no error return) */ 





在 2.4.3 节 的 例子 中 已 经 使 用 了 getpid。 
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5.14 chroot 系 统 调 用 





chroot 一 一 改变 根 目录 
#include <unistd.h> 


int chroot ( 
const char *path /* path name */ 


) 
/* Returns 0 on success or -1 on error (sets errno) */ 





这 是 一 个 为 超级 用 户 进程 预 留 的 系统 调用 ， 它 能 够 改变 进程 的 根 目录 ， 即 路 径 为 /的 目录 。 
它 不 是 标准 的 调用 ， 但 实质 上 ， 在 所 有 类 UNIX 的 系统 中 都 已 实现 了 它 (因为 它 非常 地 老 )。 

此 时 想起 chroot 的 两 个 用 途 : 

* 当 带 有 内 置 路 径 名 的 命令 (诸如 /etc/password) 不 在 普通 文件 上 运行 时 。 在 任何 方便 的 
地 方 都 能 够 建立 新 树 ， 改 变 根 目录 ， 然 后 执行 此 命令 。 在 安装 新 命令 前 ， 先 对 它们 进行 
测试 是 非常 有 用 的 。 

* 为 了 增强 安全 性 ， 如 当 web 服 务 器 进程 开始 处 理 HTML 文 件 时 。 它 可 以 把 根 目录 设置 为 
基本 路 径 ， 这 可 以 保证 进程 无 法 访问 指向 其 他 文件 的 路 径 ， 甚 至 路 径 “..” 也 不 可 以 ， 
因为 在 根 目录 下 ， 它 只 被 解释 成 是 正确 返回 根 目录 的 引用 。 

一 旦 根 目录 改变 了 ， 便 没有 办 法 用 chroot 返 回 到 根 目 录 了 。 尽 管 如 此 ， 有 些 系统 提供 了 

一 个 姐妹 函数 fchroot ， 它 以 文件 描述 符 为 参数 返回 根 目录 。( 它们 的 关系 如 3.6.2 节 中 解释 
的 fchdir 和 chdir 的 关系 相似 。) 用 户 可 以 通过 读 取 打开 文件 描述 符 来 获得 向 当前 根 目录 打 
开 的 文件 描述 符 ， 接 着 执行 chroot ， 然 后 把 保存 了 的 文件 描述 符 作 为 fchroot 的 参数 就 可 
以 返回 到 根 目录 了 。 


5.15 获得 并 设置 优先 级 


如 1.1.6 节 中 所 提 到 的 ， 每 个 进程 都 有 一 个 nice 值 ， 它 是 进程 影响 内 核 调度 优先 级 的 方法 。 
较 高 的 nice 值 意味 着 进程 想 运行 在 一 个 较 低 的 优先 级 上 。 较 低 的 nice 值 意味 着 进程 想 运行 在 较 
高 的 优先 级 上 。 为 了 使 hice 值 为 正 数 ， 它 们 取 某 个 数字 的 偏 移 量 ， 在 不 同 的 系统 中 ， 这 个 数字 
有 所 不 同 (奇怪 的 是 ， 在 UNIX 文 档 中 ， 它 的 参考 值 为 NZERO)， 一 个 典型 值 是 20。 进 程 的 
nice 值 以 20 开 始 ， 最 大 可 以 到 39， 最 小 可 以 为 0。 

为 了 改变 nice 的 值 ， 进 程 需要 执行 nice 系 统 调用 : 


nice 一 一 改变 nicc 值 


#include <unistd.h> 


int nice( 
int incr /* increment */ 


1 
/* Returns old nice value - NZERO or -1 on error (sets errno) */ 





nice 系 统 调 用 把 incr 添 加 到 nice 值 上 。nice 值 的 结果 必须 在 0 到 39 之 间 ， 其 中 包含 0 和 和 
39; 如 果 产 生 的 值 无 效 ， 则 使 用 最 近 的 有 效 值 。 只 有 超级 用 户 可 以 降低 mice 值 ， 获 得 比 平均 水 
平 要 好 的 服务 。 

实际 上 ，nice 系 统 调用 返回 的 新 nice 值 减 去 了 20， 因 此 如 果 NZERO 是 20， 则 返回 结果 范 
围 在 ~20 到 19 之 间 。 然 而 ， 返 回 值 的 用 途 很 少 。 其 中 原因 也 包括 19 的 新 nice 值 和 错误 返回 码 无 
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法 区 分 (19-20 = -1)。 这 个 漏洞 已 经 存在 多 年 仍 没有 修正 ， 不 是 没 被 注意 到 ， 而 是 因为 大 多 
数 的 UNIX 系 统 程 序 员 很 少 关心 像 nice 这 样 较 小 的 系统 调用 的 错误 返回 值 。 

大 多 数 UNIX 用 户 都 熟悉 nice 命 令 ， 它 能 以 一 个 较 低 的 优先 级 (或 如 果 是 超级 用 户 时 ， 以 
较 高 的 优先 级 ) 来 运行 程序 。 下 面 是 我 们 的 一 种 版 本 : 


#define USAGE “usage: aupnice [-num] command\n* 


int main(int argc, char *argv[]) 
{ 

int incr, cmdarg; 

char *cmdname, *cmdpath; 


if (arge < 2) { 
fprintf(stderr, USAGE); 
exit (EXIT_FAILURE) ; 


if (argv(1)(0) == '-') { 
incr = atoi(&argv(1}(1)); 
cmdarg = 2; 
} 
else { 
incr = 10; 
cmdarg = 1; 
) 
if (cmdarg >= argc) { 
fprintf(stderr, USAGE) ; 
exit (EXIT_FAILURE) ; 
) 
(void) nice(incr) ; 
emdname = strchr(argv(cmdarg], '/'); 
if (cmdname == NULL) 
emdname = argv[cmdarg]; 
else 
cmdname++; 
emdpath = argv(cmdarg]; 
argv(cmdarg] = cmdname; 
execvp(cmdpath, &argvicmdarg)); 
EC_FAIL 


EC_CLEANUP_BGN 
exit (EXIT_FAILURE) ; 
EC_CLEANUP_END 


注意 调用 execvp 时 ， 是 怎样 重新 使 用 传人 的 argv 参 数 的 。 变 量 cmdarg 保 存 了 命令 路 
径 的 下 标 (1 或 2， 取 决 于 规定 的 增 量 )。 以 cmdarg 开 始 的 argv 部 分 是 要 传递 的 部 分 。 用 户 可 
能 会 将 这 个 操作 和 5.3 节 中 execvP2 所 需要 的 更 详尽 的 处 理 操作 进行 比较 。 那 里 必须 插入 一 个 
参数 ， 这 要 求 重新 复制 整个 数组 。 

假定 向 量 中 的 第 一 个 字符 串 仅 仅 是 命令 名 称 ， 并 不 是 整个 路 径 ， 那 么 必须 删除 除了 路 径 
最 后 的 部 分 外 的 其 他 所 有 内 容 ， 以 防 用 带 有 和 斜 线 的 路 径 名 执行 命令 。 但 execvp 的 第 一 个 参数 
必须 是 在 aupnice 命 令 行 中 所 输入 的 内 容 。 

此 外 注意 ， 这 里 使 用 了 没有 fork 的 execvp。 因 为 已 经 改变 了 优先 级 ， 所 以 没有 必要 保 


日 该 句 来 自 于 1985 版 本 ，20 年 已 经 过 去 了 ， 仍 没有 更 正 。 同 时 ， 由 于 采用 了 线程 、 较 好 的 信号 以 及 至 少 上 千 
个 其 他 有 用 的 特征 ， 所 以 这 个 缺陷 多 少 也 算得 到 补偿 了 - 
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持 一 个 只 是 空 等 的 父 进程 。 

下 面 是 在 Solaris 上 运行 aupnice 的 结果 。 为 了 说 明 命令 ， 使 用 ps 报告 其 本 身 。 注 意 ， 当 
nice 值 的 增加 步 长 为 10 (aupnice 的 默认 值 ) 时 ， 内 部 优先 级 (不管 优 先 级 表示 什么 ) 从 58 
变 到 了 28。 


$ ps -ac 
PID CLS PRI TTY TIME CMD 
10460 TS 58 pts/2 0:00 ps 
$ aupnice ps -ac 
PID CLS PRI TTY TIME CMD 
10461 TS 28 pts/2 0:00 ps 


有 一 些 更 新 而 且 更 奇特 的 调用 ，getpriority 和 setpriority， 可 以 用 它们 来 处 理 
nice 值 ， 相 关 细 节 可 查看 [SUS2002] 或 系统 文档 。 


5.16 进程 限制 


内 核 给 进程 资源 增加 了 多 种 限制 ， 如 最 大 的 文件 大 小 和 最 大 的 堆栈 大 小 。 通常 ， 当 达到 
某 个 限制 时 ， 无 论 它 是 由 哪个 函数 (write, malloc) 引起 的 ， 都 会 返回 错误 ， 或 生成 
一 个 信号 ， 如 栈 游 出 时 是 SIGSEGV 信 号 (第 9 章 )。9 下 面 列 出 了 7 个 标准 资源 ， 可 以 设置 或 获 
得 它们 的 限制 ， 并 且 实现 也 可 定义 其 他 的 限制 。 

对 于 每 种 资源 ， 都 有 最 大 (或 而 ) 限制 和 当前 (或 软 ) 限制 。 当 前 限制 是 有 效 的 ， 并 且 
允许 普通 进程 将 当前 限制 设置 为 任何 不 超过 最 大 值 的 合理 数值 。 无 论 当 前 限制 是 多 少 ， 普 通 
进程 都 能 够 不 可 逆 地 将 最 大 值 降低 (但 不 能 升 高 ) 到 当前 限制 值 。 超 级 用 户 进程 可 以 将 两 种 
限制 之 一 设置 成 内 核能 支持 的 任意 值 。 

下 面 是 得 到 和 设置 这 些 限 制 的 系统 调用 : 


getrlimit 一 一 得 到 资源 限制 
#include <sys/resource.h> 
int getrlimit( 
int resource, /* resource */ 
struct rlimit *rlp /* returned limits */ 


Ys 
/* Returns 0 on success or -1 on error (sets errno) */ 


setrlimit 一 一 设置 资源 限制 


#include <sys/resource.h> 


int setrlimit( 
int resource, /* resource */ 
const struct rlimit *rlp /* limits to set */ 


) 
/* Returns 0 on success or -1 on error (sets errno) */ . 


struct rlimit 一 一 setrlimit 和 setrlimit 的 结构 
struct rlimit { 
rlimt rlim_cur; /* current (soft) limit */ 
rlim_t rlim_max; 7* maximum (hard) limit */ 
六 





日 如 果 捕获 了 SIGSEGV， 当 没有 堆栈 时 ， 信 号 句柄 如 何 执行 ? 如 9.3 节 解释 的 那样 ， 可 以 创建 其 他 的 堆栈 。 
如 果 没 有 那样 做 ， 信 号 会 被 设置 回 其 默认 行为 ， 即 终止 该 进程 。 
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每 个 调用 对 应 一 个 单独 的 资源 。 用 户 可 以 用 getrlimit 得 到 它 的 限制 ， 并 且 根 据 上 述 规 
则 用 setrlimit 设 置 它们 。 标 准 资 源 如 下 : 

RLIMIT_CORE 内 核 (信息 转 储 ) 文件 的 最 大 字 节 数 ; 0 意味 着 根本 没有 写 任何 文件 。 如 果 
超过 了 限制 ， 不 会 报告 任何 错误 -一 写 文件 到 最 大 字 节 数 后 就 停止 ， 这 可 能 会 产生 无 用 的 文件 。 

RLIMIT_CPU 以 秒 为 单位 的 最 大 CPU 时 间 。 超 过 这 个 时 间 会 产生 一 个 SIGXCPU 信 号 ， 默 
认 情况 下 会 终止 该 进程 。 如 果 用 户 捕获 、 忽 略 或 阻塞 该 信号 ， 标 准 并 没有 定义 会 发 生 什么 ， 
结果 是 进程 可 能 会 终止 ， 因 为 在 没有 累计 更 多 的 CPU 时 间 的 情况 下 ， 进 程 无 法 继续 。 

RLIMIT_DRATRA 数 据 段 的 最 大 字 节 数 。 超 过 此 值 会 导致 内 存 分 配 函 数 (如 malloc) 失败 。 

RLIMIT_FSI2E 最 大 的 文件 字 节 数 。 超 过 此 值 会 生成 SIGXFSz 信 号 ， 如 果 该 信号 可 以 被 
捕获 、 忽 略 或 阻塞 ， 那 么 违例 函数 将 失败 。 

RLIMIT_NOFILE 进 程 可 以 使 用 的 文件 描述 符 的 最 大 编号 数 。。 超过 此 值 会 导致 违例 函 
数 失败 。 

RLIMIT_STACK 栈 的 最 大 字 节 数 。 超 过 此 值 会 生成 SIGSEGV 信 号 。 

RLIMIT_AS 内 存 的 最 大 值 ， 它 包括 数据 段 、 堆 栈 和 用 mmap 映 射 进来 的 内 容 ( 见 7.14 节 )。 
超过 此 值 会 导致 违例 函数 失败 ， 或 者 如 果 是 堆栈 ， 后 果 由 RLIMIT_STACK 来 描述 。 

进程 限制 是 通过 exec 保 留 的 ， 而 且 在 fork 之 后 由 子 进程 继承 ， 所 以 只 要 在 登录 时 设置 一 
次 ， 它 们 就 会 影响 所 有 由 这 个 登录 shell 衍 生 的 进程 。 但 是 ， 如 cd 一 样 ， 设 置 它们 的 命令 必须 被 
内 置 到 shell 中 一 一 在 shell 的 子 进程 中 执行 它 是 无 效 的 。 大 多 数 shell 都 有 ulimit 命 令 ， 可 以 对 文 
件 大 小 设置 限制 ， 并 且 其 他 shell 可 能 有 更 通用 的 命令 ， 可 能 叫 limit、1imits 或 plimit。@ 

对 于 rlimit 结 构 的 rlim_cur 和 rlim_max 成 员 ， 除 了 实际 的 数 ， 还 有 一 些 专门 的 宏 指 
令 : RLIM_SAVED_CUR, RLIM_SAVED_MAX#JRLIM_INFINITY. 

当 调用 getr1limit 时 ， 如 果 它 们 配置 在 某 个 rl1im_t 中 ， 那 么 将 返回 实际 的 数 ， 其 中 
rlim_t 是 个 无 符号 类 型 ， 标 准 中 没有 指定 无 符号 类 型 的 宽度 。 如 果 某 个 数 不 合 适 ， 并 当 其 等 
于 最 大 值 时 ， 会 将 成 员 设 置 为 RLIM_SAVED_MAX。 否 则 会 将 它 设置 为 RLIM_SAVED_CUR, 这 
便 意 味 着 “设置 限制 为 当前 的 限制 .” 如 果 成 员 被 设置 成 RLIM_INFINITY， 意 味 着 没有 限制 。 

当 调 用 setrlimit 时 ， 如 果 某 个 成 员 是 RLIM_SAVED_CUR， 那 么 它 会 被 设置 成 当前 限制 ; 
如 果 是 RLIM_SAVED_MAX， 那 么 它 会 被 设置 为 最 大 值 ， 如 果 是 RLIM_INFINITY， 将 不 会 强加 
任何 限制 。 否 则 ， 限 制 将 会 被 设置 为 曾经 使 用 过 的 数 。 然 而 ， 只 有 在 调用 getrlimit 返 回 限制 
值 时 ， 才 可 以 使 用 RLIM_SAVED_CUR 或 RLIM_SAVED_MAX; BAJ, 用户 就 不 得 不 使 用 当前 的 数 。 
换 句 话说 因为 rlim_t 没 有 保持 那个 数 ， 而 用 户 又 被 迫使 用 这 些 宏 时 ， 才 会 使 用 它们 。 

对 RLIM_SAVED_CUR 和 RLIM_SAVED_MAX 来 说 ， 这 些 元 长 无 聊 的 废话 实际 上 就 是 ， 即 
使 不 能 得 到 它们 的 实际 值 ， 也 可 以 一 定 程度 地 操作 这 些 限制 。 

如 果实 现 上 从 来 不 会 有 合适 r1im_t 的 限制 ， 那 么 就 决 不 会 使 用 RLIM_SAVED_CUR 宏 或 
RLIM_SAVED_MAX 宏 ,所 以 允许 这 些 宏 有 和 RLIM_INFINITY 相 同 的 值 。 在 下 面 这 个 例子 中 ， 
将 会 看 到 这 个 影响 ， 该 例子 显示 了 限制 ， 它 把 文件 限制 设置 成 了 不 可 能 的 小 数字 (没有 文件 
会 小 于 这 个 数 )， 然 后 超过 它 ， 最 后 导致 程序 终止 ， 该 终止 是 通过 SIGXFSZ 信 号 来 完成 的 。 

int main(void) 


{ 
struct rlimit r; 


O 技术 上 讲 , 其 比 最 大 文件 描述 符 大 。 所 有 可 能 的 文件 描述 符 都 是 向 着 这 个 限制 计数 的 , 即使 它们 没有 被 打开 。 
O 不 要 把 这 些 进程 限制 和 用 户 限制 混淆 ， 如 用 户 的 磁盘 限额 。 可 以 通过 非 标 准 命令 (如 quota) 来 查询 和 设 
置 用 户 限制 ， 并 依据 非 标准 系统 调用 (如 quotact1 或 者 ioct1) 来 实现 用 户 限制 
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int fd; 
char buf[500] = { 0 }; 


if (sizeof(rlim_t) > sizeof(long long)) 
printf (Warning: rlim_t > long long; results may be wrong\n"); 
ec_false( showlimit (RLIMIT_CORE, "RLIMIT_CORE") ) 
ec_false( showlimit (RLIMIT CPU, *RLIMIT_CPU") ) 
ec_false( showlimit(RLIMIT_DATA, "RLIMIT_DATA") ) 
ec_false( showlimit(RLIMIT_FSIZE, “RLIMIT_FSIZE*) ) 
ec_false( showlimit (RLIMIT_NOFILE, “RLIMIT_NOFILE") ) 
ec_false( showlimit (RLIMIT_STACK, "RLIMIT_STACK*) ) 
#ifndef FREEBSD 
ec_false( showlimit(RLIMIT_AS, “RLIMIT_AS") ) 
#endif 
ec_negl( getrlimit (RLIMIT_FSIZE, &r) ) 
r.rlim cur = 500; 
ec_negl( setrlimit(RLIMIT_FSIZE, &r) ) 
ec_negl( fd = open("tmp", O_WRONLY | O_CREAT | O_TRUNC, PERM_FILE) ) 
ec_negl( write(fd, buf, sizeof(buf)) ) 
ec_negl( write(fd, buf, sizeof(buf)) ) 
printf ("Wrote two buffers! (?)\n"); 
exit (EXIT_SUCCESS) ; 





EC_CLEANUP_BGN 
exit (EXIT_FAILURE) ; 


EC_CLEANUP_END 
d 


static bool showlimit(int resource, const char *name) 


{ 
struct rlimit r; 


ec_negl( getrlimit (resource, &r) ) 
printf("ts: *, name 
printf ("rlim cur = "); 
showvalue(r.rlim_cur) ; 
printf("; rlim max = " 
showvalue(r.rlim_max) ; 
printf ("\n"); 

return true 








EC_CLEANUP_BGN 
return false; 

EC_CLEANUP_END 

} 


static void showvalue(rlim_t lim) 
$ 
/* 
All macros may equal RLIM_INFINITY; that test 
must be first; can't use switch statement. 
a 
if (Lim == RLIM_INFINITY) 
printf (*"RLIM_INFINITY*) ; 
#ifndef BSD_DERIVED 
else if (lim == RLIM_SAVED_CUR) 
printf (*RLIM_SAVED_CUR*) ; 
else if (lim == RLIM_SAVED_MAX) 
printf ("RLIM_SAVED_MAX* 





fendif 
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else 
printf£("tllu", (unsigned long long) lim); 


} 


FreeBSD 和 Darwin 并 没有 实现 全 部 内 容 ， 如 在 代码 中 看 到 的 。 
下 面 是 在 4 个 测试 系统 中 所 得 到 的 ， 从 Solaris 开 始 : 


RLIMIT_CORE: rlim cur = RLIM_INFINITY; rlim max = RLIM_INFINITY 
RLIMIT_CPU: rlim_cur = RLIM_INFINITY; rlim_max = RLIM_INFINITY 
RLIMIT_DATA: rlim_cur = RLIM_INFINITY; rlim_max = RLIM_INFINITY 
RLIMIT_FSIZE: rlim_cur = RLIM_INFINITY; rlim_max = RLIM_INFINITY 
RLIMIT_NOFILE: rlim cur = 256; rlim max = 1024 

RLIMIT_STACK: rlim cur = 8683520; rlim max = 133464064 
RLIMIT_AS: rlim cur = RLIM_INFINITY; rlim max = RLIM_INFINITY 
File Size Limit Exceeded - core dumped 











Linux: 


RLIMIT_CORE: rlim cur = 0; rlim max = RLIM_INFINITY 
RLIMIT_CPU: rlim_cur = RLIM_INFINITY; rlim max = RLIM_INFINITY 
RLIMIT_DATA: rlim cur = RLIM_INFINITY; rlim max = RLIM_INFINITY 
RLIMIT_FSIZE: rlim cur = RLIM_INFINITY; rlim_max = RLIM_INFINITY 
RLIMIT_NOFILE: rlim cur = 1024; rlim_max = 1024 

RLIMIT_STACK: rlim_cur = RLIM_INFINITY; rlim_max = RLIM_INFINITY 
RLIMIT_AS: rlim cur = RLIM_INFINITY; rlim_max = RLIM_INFINITY 
File size limit exceeded 


FreeBSD: 
RLIMIT_CORE: rlim_cur = RLIM_INFINITY; rlim_max = RLIM_INFINITY 
RLIMIT_CPU: rlim_cur = RLIM_INFINITY; rlim_max = RLIM_INFINITY 
RLIMIT_DATA: rlim cur = 536870912; rlim max = 536870912 
RLIMIT_FSIZE: rlim_cur = RLIM_INFINITY; rlim_max = RLIM_INFINITY 
RLIMIT_NOFILE: rlim.cur = 957; rlim max = 957 
RLIMIT_STACK: rlim cur = 67108864; rlim max = 67108864 
Filesize limit exceeded 











Darwin: 


RLIMIT_CORE: rlim cur = 0; rlim max = RLIM_INFINITY 
RLIMIT_CPU: rlim cur = RLIM_INFINITY; rlim_max = RLIM_INFINITY 
RLIMIT_DATA: rlim_cur = 6291456; rlim max = RLIM_INFINITY 
RLIMIT_PSIZE: rlim cur = RLIMINFINITY; rlim max = RLIM_INFINITY 
RLIMIT_NOFILE: rlim cur = 256; rlim max = RLIM_INFINITY 
RLIMIT_STACK: rlim_cur = 524288; rlim max = 67108864 

Filesize limit exceeded 


还 有 一 个 更 早 的 系统 调用 ， 其 功能 相对 较 少 ， 而 且 返 回 值 有 问题 : 
ulimit 一 一 得 到 和 设置 进程 限制 


#include <ulimit.h> 


long ulimit( 
int oma, /* command */ 
sel /* optional argument */ 


Ys 
/* Returns limit or -1 with errno changed on error (sets errno) */ 





O 实际 上 ， 这 些 调用 最 初 来 自 4.2BSD， 但 起 源 于 BSD 的 系统 并 没有 向 系统 中 添加 全 部 的 、 较 新 的 POSIX 扩 展 
特征 ， 即 只 添加 了 部 分 。 
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cmd 参 数 的 值 可 取 下 列 之 一 : 

UL_GETFSIZE 得 到 当前 的 文件 大 小 限制 ， 等 价 于 带 有 RLIMIT_FSIZE 参 数 的 
getrlimit. 

UL_SETFSI2E 设 置 文 件 大 小 限制 为 第 二 个 long 参 数 ， 只 有 超级 用 户 进程 才能 增加 它 。 
等 价 于 带 有 RLIMIT_FSIZE 参 数 的 setr1imit， 其 中 需要 调整 r1im_max 和 rlim_cur 来 
匹配 。 

设置 或 获得 的 这 些 数 大 小 以 512 字 节 为 单元 。 因 为 这 些 数 可 以 变 大 ， 所 以 返回 值 可 能 是 负 
的 ， 甚 至 也 可 能 是 -1。 因 此 ， 检 查 错误 的 方法 是 在 调用 开始 之 前 ， 设 置 errno 为 0。 如 果 它 
返回 -1， 那 么 只 有 当 errno 也 变化 时 ， 才 说 明 是 出 现 了 错误 。 

有 更 多 关于 ulimit 的 特性 ， 但 这 里 没有 深入 研究 它们 。ulimit 本 质 上 是 混乱 的 ， 所 以 
最 好 使 用 getrlimit 和 setrlimit 来 代替 它 。 

getrusage 系 统 调用 可 以 获得 有 关 进 程 、 进 程 终止 和 等 待 着 的 子 进程 资源 使 用 的 信息 : 


getrusage 一 一 得 到 资源 的 使 用 


#include <sys/resource.h> 











int getrusage( 
int who, /* RUSAGE_SELF or RUSAGE_CHILDREN */ 
struct rusage *r_usage /* returned usage information */ 





) 
/* Returns 0 on success or -1 on error (sets errno) */ 


struct rusage 一 一 getrusage 的 结构 


struct rusage { 
struct timeval ru_utime; /* user time used */ 
struct timeval ru_stime; /* system time used */ 
/* following members are nonstandard */ 
long ru_maxrss; /* maximum resident set size */ 
long ru_ixrss; integral shared memory size */ 
long ru_idrss; integral unshared data size */ 
long ru_isrss; * integral unshared stack size */ 
long ru_minflt; page reclaims */ 
long ru_majflt; page faults */ 
long ru_nswap; swaps */ 
long ru_inblock; block input operations */ 
long ru_oublock; block output operations */ 
long ru_msgsnd; * messages sent */ 
long ru_msgrev; messages received */ 
long ru_nsignals; * signals received */ 
long ru_nvesw; * voluntary context switches */ 
long ru_nivesw; involuntary context switches */ 





[SUS2002] 只 规定 了 前 两 个 成 员 。 包 括 FreeBSD 在 内 ， 较 新 一 点 的 BSD 系 统 都 支持 它们 。 
Solaris 8 (至 少 在 Intel 系 列 上 ) 只 支持 标准 成 员 ; Linux 除 了 支持 标准 成 员 , 还 支持 Fu_minflt、 
ru_majflt 和 ru_nswap。 若 要 查看 成 员 所 代表 的 含义 的 细节 ， 可 以 查看 用 户 系统 手册 
getrusage 的 联机 资料 ;至 于 所 有 成 员 细节 ， 可 以 通过 在 基于 BSD 的 系统 上 运行 来 获得 。 

两 个 返回 的 时 间 与 times 返 回 的 相似 ( 见 1.7.2 节 )， 但 精确 度 更 高 ， 因 为 timeval (I 
1.7.1 节 ) 是 以 微 秒 来 计量 的 。 


5.17 ”线程 介绍 


这 节 将 对 线程 进行 非常 简洁 的 介绍 ， 但 足以 理解 一 些 令 人 感 兴趣 的 示例 程序 了 。 目 的 是 
解释 什么 是 线程 ， 帮 助 判断 应 用 程序 设计 是 否 可 从 线程 中 获 益 ， 并 且 提 醒 在 使 用 时 可 能 带 来 
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的 一 些 危险 并 给 出 警告 
至 于 线程 的 整个 原理 (大 约 有 100 多 个 操作 线程 的 系统 调用 来 管理 线程 )， 可 以 查看 有 关 
这 个 主题 的 书籍 ， 如 [Nor1997] 或 [But1997]。 


5171 线程 创建 


到 目前 为 止 所 有 例子 中 ， 所 创建 的 进程 (用 fork) 内 部 都 只 有 一 个 控制 流 ， 或 线程 。 程 
序 的 执行 以 一 个 单一 的 顺序 从 指令 到 指令 不 断 进行 ， 同 时 ， 各 种 各 样 的 指令 也 改变 着 栈 、 全 
局 数据 和 系统 资源 ， 其 中 某 些 指令 还 可 能 也 执行 了 系统 调用 。 

根据 UNIX 的 POSIX 线 程 特性 ， 一 个 进程 可 以 有 多 个 线程 ， 每 一 个 线程 都 有 它 自 身 的 控制 流 
( 它 自 己 的 指令 计数 器 和 CPU 时 钟 ) 和 它 自己 的 栈 。 实 质 上 ， 包 含 诸如 打开 文件 或 当前 目录 的 全 
局 数据 和 资源 在 内 的 其 他 任何 与 进程 相关 的 东西 ， 都 是 共享 的 。S 下 面 的 代码 说 明了 这 个 意思 。 


static long x = 0; 


static void *thread_func(void *arg) 
T 
while (true) { 
printf ("Thread 2 says t1d\n", ++x); 
sleep(1); 


) 


int main(void) 
{ 
pthread_t tid; 


ec_rv( pthread_create(&tid, NULL, thread_func, NULL) ) 
while (x < 10) ( 
printf ("Thread 1 says $1d4\n", ++x); 
sleep(2); 
) 
return EXIT_SUCCESS; 


EC_CLEANUP_BGN 
return EXIT_FAILURE; 

EC_CLEANUP_END 

} 


线程 的 输出 顺序 是 不 可 预知 的 ， 这 是 碰巧 得 到 的 输出 : 


Thread 2 says 1 
Thread 1 says 2 
Thread 2 says 3 
Thread 1 says 4 
Thread 2 says 5 
Thread 2 says 6 
Thread 1 says 7 
Thread 2 says 8 
Thread 2 says 9 
Thread 1 says 10 
Thread 2 says 11 
Thread 2 says 12 


因此 ,读者 将 看 到 ， 程 序 中 的 两 个 线程 一 -main 中 的 线程 和 thread_func 中 的 线程 ， 


O 线程 也 可 安排 获得 某 个 特定 线程 的 数据 ; 细节 可 见 [SUS2002] 或 者 其 他 此 类 参考 书 - 
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都 访问 了 同样 的 全 局 变量 x。 这 样 做 存在 一 些 问 题 ， 本 书 将 在 5.17.3 节 讨论 这 些 问题 。 
初始 化 线程 是 一 个 包含 main 的 线程 ， 它 用 pthread_create 系 统 调用 剔除 了 第 二 个 线程 。 


pthread_create 一 一 建立 线程 
#include <pthread.h> 


int pthread_create( 
pthread_t *thread_id, /* new thread’s ID */ 


const pthread_attr_t tattr, /* attributes (or NULL) */ 
void *(*start_fen) (void *), /* starting function */ 
void targ /* arg to starting function */ 


Me 
/* Returns 0 on success, error number on error */ 





新 线程 从 pthread_create 中 规定 的 启动 函数 的 调用 开始 ， 该 函数 必须 具有 如 下 原型 : 


pthread starting function 


void *start_fen( 
void *arg 


) 
/* Returns exit status */ 





无 论 向 pthread_create 函 数 的 第 4 个 参数 传递 什么 值 ， 都 将 被 直接 传 给 那个 启动 函数 。 
通常 它 是 一 个 void 指针 ， 而 实际 上 经 常 是 指向 某 个 数据 的 指针 。 因 为 线程 共享 同样 的 地 址 空 
间 ， 所 以 该 指针 对 两 个 进程 都 是 有 效 的 。 如 果 愿 意 ， 也 可 以 以 整 型 数据 类 型 传递 参数 ， 但 必 
须要 将 它 强制 转换 给 某 个 void 指针 。 并 且 为 了 安全 ， 应 该 检查 〈 比 如 说 ， 使 用 assert) 使 
用 的 整 型 类 型 是 否 和 void 指针 相 适 应 。 如 下 面 的 示例 一 样 ， 使 用 一 行 代码 来 检查 : 

assert (sizeof (long) <= sizeof(void *)); 

影响 新 线程 属性 的 不 仅仅 是 某 些 标志 ， 而 是 pthread_attr_t 类 型 的 对 象 ， 而 且 必 须 调 
用 pthread_attr_setscope 和 pthread_attr_setstacksize 设 置 这 个 对 象 ， 在 这 里 
就 不 深入 讨论 这 些 调 用 了 。( 但 用 户 或 许 会 开始 想 为 什么 需要 100 多 个 与 线程 相关 的 调用 了 .。 ) 
在 后 面 例子 中 将 只 使 用 默认 属性 ， 所 以 Pthread_create 的 第 二 个 参数 将 会 是 NULL。 

所 有 “pthread” 函 数 一 律 在 成 功 时 返回 0， 而 失败 时 返回 错误 代码 ， 但 不 设置 erzno。 对 
于 这 个 问题 ， 有 专门 的 “ec” 宏 一 ec_rv 来 解决 。 如 果 有 错误 ， 它 将 获得 错误 代码 ， 并 且 
仿佛 它 真是 那个 errno 值 一 样 处 理 它 。9 


5.17.2 等 待 线程 终止 
一 个 线程 可 以 等 待 另 一 个 线程 终止 ， 并 用 Pthread_join (与 wait 以 及 其 变 体 类 似 ) 
来 获得 其 退出 状态 。 


pthread_join 一 一 等 待 线程 终止 
#include <pthread.h> 


int pthread_join( + 
pthread_t thread_id, /* ID of thread to join */ 
void **status_ptr /* returned exit status (if not NULL arg) */ 


ve 
/* Returns 0 on success, error number on error */ 





日 ”错误 检测 包 中 的 各 种 函数 都 被 修改 成 了 线程 安全 的 , 但 是 本 书 没有 给 出 相应 的 代码 。 然而 可 以 在 网 站 上 看 到 。 
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下 面 是 为 了 实现 如 下 功能 而 修改 的 小 示例 。 其 功能 是 : 线程 1 可 以 传递 一 个 限制 给 线程 2， 
然后 线程 2 向 线程 1 报告 x 的 值 : 


static long x = 0; 


static void *thread_func(void *arg) 
{ 
while (x < (long)arg) { 
printf ("Thread 2 says tld\n", ++x); 
sleep(1); 
$ 


return (void *)x; 


int main(void) 


pthread_t tid; 

void *status; 

assert (sizeof (long) <= sizeof (void *)); 
ec_rv( pthread_create(&tid, NULL, thread_func, 


while (x < 10) { 
printf ("Thread 1 says tld\n", ++x); 
sleep(2); 


(void *)6) ) 


} 
ec_rv( pthread_join(tid, &status) ) 
printf ("Thread 2's exit status is %ld\n", 


return EXIT_SUCCESS; 


(long) status) ; 


EC_CLEANUP_BGN 
return EXIT_FAILURE; 

EC_CLEANUP_END 

} 


输出 如 下 : 


Thread 1 says 1 
Thread 2 says 2 
Thread 2 says 3 
Thread 1 says 4 
Thread 2 says 5 
Thread 2 says 6 
Thread 1 says 7 
Thread 1 says 8 
Thread 1 says 9 
Thread 1 says 10 
Thread 2's exit status is 7 


5.17.3 SRE (EF) 

在 接 下 来 的 几 章 中 将 看 到 ， 在 UNIX 系 统 上 ， 多 进程 同时 工作 (或 许 跨越 网 络 ) 的 难题 是 
允许 它们 共享 数据 。 而 用 线程 时 ， 则 完全 相反 一 一 难题 是 保证 被 分 散 的 数据 的 正常 共享 。 事 实 
上 ， 刚 才 给 出 的 两 个 线程 的 例子 是 有 缺陷 的 ， 因 为 两 个 线程 可 能 会 同时 访问 相同 的 数据 一 一 变 
量 x。 尽 管 似乎 一 个 简单 的 增 量 操作 符 是 一 个 原子 操作 ， 但 并 没有 保证 它 确实 是 。 事 实 上 ， 很 
可 能 线程 1 更 新 了 32- 位 的 x 的 一 半 ， 而 同时 线程 2 却 读 取 了 整个 32 位 ， 从 而 导致 线程 2 得 到 的 不 
是 有 效 的 整 型 ，9 而 是 一 个 混杂 物 。 对 于 更 复杂 的 共享 数据 结构 ， 即 更 加 实际 的 情形 ， 这 个 问 


O 这 只 是 一 种 可 能 会 出 错 的 情况 。 另 一 种 情况 是 编译 器 优化 可 能 会 把 整数 留 在 寄存 器 中 。 在 没有 保护 的 情况 
下 决 不 能 让 线程 同时 访问 数据 - 
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| 题 就 更 精 了 。 我 们 想 要 访问 原子 态 的 共享 数据 。 具 有 此 含义 的 两 点 说 明 如 下 : 
。 如 果 数 据 结构 的 更 新 操作 使 数据 结构 处 在 一 个 暂时 的 不 连续 的 状态 下 ， 那 么 除了 更 新 数 
据 的 线程 外 没有 其 他 线程 能 够 看 到 这 种 状态 下 的 数据 结构 。 
*， 如 果 线 程 必须 读 取 数据 , 计算 结果 以 及 将 它们 写 回 等 操作 , 直到 整个 操作 顺序 完成 之 前 ， 
不 允许 有 其 他 线程 修改 它们 。 否 则 其 他 线程 的 修改 会 丢失 。 
所 提出 的 这 些 要 求 可 以 通过 一 些 简单 的 系统 调用 来 满足 ， 这 些 系 统 调用 可 以 实现 互 斥 - 
MAR, MAA ZF (mutex ) 。 线 程 使 用 它们 保护 临界 段 ， 否 则 另 一 个 线程 可 能 会 在 临界 
段 上 看 到 不 一 致 的 数据 或 干扰 对 临界 段 的 修改 。 
主要 的 互 斥 系统 调用 是 pthread_mutex_lock 和 pthread_mutex_unlock: 


pthread_mutex_lock 一 一 锁 互 斥 
#include <pthread.h> 


int pthread_mutex_lock( 
pthread_mutex_t *mutex /* mutex to lock */ 


Me 
/* Returns 0 on success, error number on error */ 


pthread_mutex_unlock 一 一 解锁 互 斥 
#include <pthread.h> 


int pthread_mutex_unlock( 
pthread_mutex_t *mutex /* mutex to unlock */ 


) 
/* Returns 0 on success, error number on error */ 





互 斥 工作 原理 如 下 : 如 果 某 个 互 斥 已 经 被 锁定 ， 那 么 pthread_mutex_lock 将 阻塞 ， 
直到 互 斥 被 解除 锁定 。 
获得 一 个 合适 的 互 斥 变量 的 最 简单 方法 是 利用 一 个 初始 化 语句 来 声明 它 ， 像 这 样 : 


static pthread_mutex_t mtx = PTHREAD_MUTEX_INITIALIZER; 


它 可 以 是 文件 的 局 部 变量 ( static)， 也 可 以 是 文件 之 间 的 共享 变量 (extern), HA 
既 可 以 在 栈 中 设置 互 斥 《自动 变量 )， 也 可 以 动态 分 配 ， 但 之 后 需要 调用 pthread_mutex_ 
init 初 始 化 它们 ， 关 于 pthread_mutex_init， 这 里 不 再 详细 介绍 。9S 

现在 来 修改 程序 以 便 充 分 保护 共享 数据 : 


static pthread_mutex_t mtx = PTHREAD_MUTEX_INITIALIZER; 
static long x = 0; 


static void *thread_func(void *arg) 
{ 
bool done; 


while (true) { 
ec_rv( pthread_mutex_lock(&mtx) ) 
done = x >= (long)arg; 
ec_rv( pthread_mutex_unlock(&mtx) ) 


O ”即使 编译 器 允许 ， 也 不 应 当 使 用 初始 程序 PTHEREAD_MUTEX_INITIALIZER 初 始 自动 互 斥 变量 。 因 为 在 一 些 
系统 上 ， 那 样 可 能 会 调用 一 个 线程 不 安全 的 函数 。 在 C++ 中 ， 如 果 使 用 PTHREAD_MUTEX_INITIALIZER 初 
始 化 一 个 静态 的 内 部 互 奈 ， 也 会 出 现 相同 的 麻烦 ， 因 为 直到 调用 了 函数 ，C++ 才 开始 初始 化 。 
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if (done) 
break; 

ec_rv( pthread_mutex_lock(&mtx) ) 
printf ("Thread 2 says %ld\n", ++x); 
ec_rv( pthread_mutex_unlock(&mtx) ) 
sleep(1); 

} 

return (void *)x; 


EC_CLEANUP_BGN 
EC_FLUSH ("thread_func") 
return NULL; 

EC_CLEANUP_END 

} 


int main(void) 

( 
pthread_t tid; 
void *status; 
bool done; 


assert (sizeof (long) <= sizeof (void *)); 
ec_rv( pthread_create(&tid, NULL, thread_func, (void *)6) ) 
while (true) { 

ec_rv( pthread_mutex_lock(&mtx) ) 

done = x >= 10; 

ec_rv( pthread_mutex_unlock(&mtx) ) 

if (done) 

break; 

ec_rv( pthread_mutex_lock(&mtx) ) 

printf ("Thread 1 says ¢ld\n", ++x); 

ec_rv( pthread_mutex_unlock(&mtx) ) 

sleep(2); 
} 
ec_rv( pthread_join(tid, &status) ) 
printf ("Thread 2's exit status is %ld\n*, (long)status); 
return EXIT_SUCCESS; 


EC_CLEANUP_BGN 
return EXIT_FAILURE; 
EC_CLEANUP_END 
) 
注意 ， 必 须 将 条 件 放 在 while 表 达 式 外 ， 以 便 能 够 围绕 这 些 条 件 利用 加 锁 和 解锁 调用 。 
当然 ， 并 不 需要 保护 整个 循环 ， 因 为 那样 将 破坏 并 发 性 。 需 要 仔细 地 保护 ， 足 够 安全 就 行 ， 
不 需要 过 多 的 保护 ， 否 则 会 损害 性 能 。 不 幸 的 是 ， 即 使 用 户 可 能 能 够 用 正确 的 测试 方法 检测 
性 能 问题 ， 但 测试 是 否 已 经 禁止 了 所 有 的 竞争 条 件 也 是 很 困难 的 。 
这 里 还 有 一 个 缺点 : 假定 在 thread_func 中 调用 pthread_mutex_unlock 失 败 ， 那 么 
将 会 导致 线程 退出 。 这 可 能 会 使 互 斥 被 锁定 ， 将 导致 初始 线程 在 对 pthread_mutex_lock 
进行 的 某 一 个 调用 中 永远 地 阻塞 。 一 种 可 能 的 解决 方法 是 确保 互 斥 在 thread_func 的 清理 代 
码 中 调用 另 一 个 pthread_mutex_unlock 来 解除 锁定 ， 像 这 样 : 
EC_CLEANUP_BGN 
(void) pthread_mutex_unlock (&mtx) ; 
EC_FLUSH ("thread_func") 


return NULL; 
EC_CLEANUP_END 
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假设 第 一 次 pthread_mutex_unlock 调 用 失败 ， 第 二 次 调用 可 能 会 成 功 ， 这 看 起 来 是 
一 段 延 迟 。 因 为 只 要 互 斥 有 一 个 有 效 值 ， 决 没有 pthread_mutex_lock 或 pthread_ 
mutex_unlock 调 用 失败 的 情形 。 最 简单 、 最 安全 、 最 明确 的 方法 是 在 调试 时 检查 来 自 这 些 
函数 的 错误 返回 值 ， 而 不 是 在 产品 程序 中 。 或者， 对 自己 的 应 用 程序 来 说 ， 只 要 能 够 得 到 错 
误 报告 ， 你 最 好 是 不 理 竖 它们， 这 样 就 不 必 浪 费时 间 试 图 去 查找 应 用 程序 延迟 原因 。 这 是 另 
一 个 为 什么 要 谨慎 小 心 正确 使 用 线程 的 情况 。 你 可 能 会 发 现 花费 的 时 间 中 ， 有 5% 的 时 间 用 于 
实现 线程 ， 而 95% 的 时 间 用 在 确保 程序 的 正确 性 上 。 

正确 的 处 理 方法 是 ， 用 函数 集 (或 者 用 一 个 类 ， 如 果 用 户 使 用 像 C++ 那样 的 面向 对 象 语言 
的 话 ) 封装 对 共享 数据 的 访问 ， 且 在 这 些 封 闲 的 访问 函数 中 使 用 互 斥 的 方法 。 在 整个 程序 中 ， 
不 要 一 厢 情 愿 地 扩展 加 锁 和 解锁 调用 ， 像 本 书 所 举 的 例 程 那样 。 

因此 再 次 重新 编写 前 面 的 程序 ， 这 次 所 有 对 x 的 访问 都 只 通过 函数 get_and_incr_x 来 
完成 ， 该 函数 处 理 了 所 有 的 加 锁 和 解锁 工作 。x 和 互 斥 都 被 移 到 了 函数 内 部 。 注 意 到 这 个 版 本 
的 程序 的 可 读 性 比 先前 版 本 的 要 好 。 较 好 的 可 读 性 似乎 总 是 暗示 了 较 好 的 可 靠 性 ! 


static long get_and_incr_x(long incr) 
{ 
static long x = 0; 
static pthread_mutex_t mtx = PTHREAD_MUTEX_INITIALIZER; 
long rtn; 
ec_rv( pthread_mutex_lock(&mtx) ) 
rtn = x += incr; 
ec_rv( pthread_mutex_unlock(&mtx) ) 
return rtn; 


EC_CLEANUP_BGN 
exit (EXIT_FAILURE) ; 

EC_CLEANUP_END 

} 


static void *thread_func(void *arg) 
{ 
while (get_and_incr_x(0) < (long)arg) { 
printf ("Thread 2 says tld\n*, get_and_incr_x(1)); 
sleep(1); 
} 
return (void *)get_and_incr_x(0); 


int main (void) 


pthread_t tid; 
void *status; 


assert (sizeof(long) <= sizeof(void *)); 
ec_rv( pthread_create(&tid, NULL, thread_func, (void *)6) ) 
while (get_and_incr_x(0) < 10) { 
printf ("Thread 1 says t]ld\n", get_and_incr_x(1)); 
sleep(2); 
} 
ec_rv( pthread_join(tid, &status) ) 
printf ("Thread 2's exit status is %1d\n", (long)status); 
return EXIT_SUCCESS; 


EC_CLEANUP_BGN 
return EXIT_FAILURE; 
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EC_CLEANUP_END 
ji 


这 次 决定 使 加 锁 或 解锁 错误 变 成 致命 错误 ， 这 也 是 另 一 种 可 行 的 选择 。 其 本 意 当然 不 是 
让 你 在 所 有 情况 中 都 那样 去 做 。 真 正 的 意图 是 要 说 明 存在 着 许多 处 理 这 些 错误 的 方法 ， 并 且 
要 根据 特定 应 用 程序 的 需求 来 判断 哪个 是 最 好 的 。 

理解 get_and_incr_x 函 数 中 的 这 几 行 代码 的 工作 原理 是 非常 重要 的 : 

ec_rv( pthread_mutex_lock(&mtx) ) 


rtn = x += incr; 
ec_rv( pthread mutex_unlock(&mtx) ) 


这 儿 行 代码 实现 的 是 对 作为 全 局 变量 的 x 的 访问 ，x 在 需要 保护 的 线程 之 间 共 享 。 变 量 rtn 
和 incr 位 于 每 一 个 线程 的 特有 堆栈 (也 就 是 ， 每 个 线程 都 有 自己 的 复制 )， 且 不 需要 保护 。 

更 多 关于 这 个 程序 的 讨论 放 到 了 练习 5.11 中 。 

另外 还 有 三 种 线程 同步 对 象 ， 用 户 可 以 在 [SUS2002] 中 或 在 5.17 节 开头 提 到 的 书 中 查看 
它们 : 

。 读 写 锁 (read-write lock) 类 似 于 互 斥 ， 但 为 了 获得 额外 的 并 发 性 ， 它 们 区 分 了 对 读数 

据 加 锁 和 对 写 数据 加 锁 。 想 从 根本 上 了 解 更 多 有 关 读 写 锁 的 信息 ， 可 以 查看 7.11.4 节 。 

“旋转 锁 (spin lock) 也 类 似 于 互 斥 ， 但 它们 是 为 较 短 的 持续 时 间 而 准备 的 ， 而 且 比 互 斥 

更 快 。 通 常 在 一 个 CPU 循环 中 ， 可 以 通过 测试 锁 代 替 阻 塞 线程 来 实现 它们 。 

+H BM (barrier) 是 一 个 或 多 个 线程 等 待 的 同步 点 ， 其 保证 允许 继续 执行 任何 线程 前 ， 

线程 已 经 完成 了 某 个 任务 。 


5.17.4 条 件 变量 

假设 线程 A 正 在 做 某 项 工作 〈 例 如， 从 网 络 连 接 中 读 取 数据 ) 并 向 某 个 队列 中 增加 了 一 些 
项 目 ， 而 线程 B 正 从 该 队列 取 项 目 ， 并 在 项 目 上 面 做 一 些 额外 的 工作 (例如 ， 更 新 数据 库 )。 
使 用 互 斥 M 来 控制 对 队列 的 访问 ， 可 以 如 下 来 组 织 线程 : 


线程 A 线程 B 

1. Read data [B] 1. Lock M [b] 

2. Lock M [b] 2. If item on queue, remove it and update database 
3. Put item on queue 3. Unlock M 

4. Unlock M 4. Goto step 1 

5. Goto step 1 


(符号 [B] 表 示 一 个 不 确定 的 阻塞 ， 而 [表示 一 个 短 持续 时 间 的 阻塞 。) 
这 样 组 织 是 没 问 题 的 ， 但 当 队列 为 空 时 ， 线 程 B 会 浪费 大 量 的 CPU 时 间 ， 因 为 当 其 不 断 循 
环 时 ， 要 不 断 地 检查 。 可 以 采用 如 下 方式 使 其 慢 下 来 : 


线程 A 线程 B 

1. Read data [B] 1. Lock M 

2. Lock M [b] 2. Ifitem on queue, remove it and update database 
3. Put item on queue 3. Unlock M [b] 

4. Unlock M 4. Sleep for 1 sec. [b] 

5. Goto step 1 5. Goto step 1 


但 这 种 改进 并 不 明显 : 现在 线程 B 的 响应 减少 了 ， 因 为 当 有 工作 要 做 时 ， 它 可 能 正在 休眠 ， 
但 还 是 浪费 了 CPU 时 间 ， 因 为 当 它 唤醒 时 ， 队 列 可 能 是 空 的 。 所 期 望 的 改进 结果 是 ， 当 线程 A 
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向 队列 中 放置 某 个 项 目 时 ， 用 信号 通知 线程 B， 并 且 阻 塞 线程 B， 直 到 它 获得 这 个 通知 信号 。 
下 面 尝试 用 另 一 个 互 斥 Q 来 描绘 “队列 是 非 空 的 ”这 个 概念 : 


线程 A 线程 B 

1. Read data [B] 1. Lock M [b] 

2. Lock M [b] 2. If item on queue, remove it and update database 
3. Put item on queue 3. Unlock M 

4. Unlock M 4. Lock Q [B] 

5. Unlock Q 5. Goto step | 

6. Goto step | 


线程 B 尝 试 锁定 Q (第 4 步 ) 是 个 不 确定 的 阻塞 ， 因 为 仅 当 线程 A 从 B 读 取 (第 1 步 ) 返回 
时 ，Q 才 会 变 为 非 锁定 的 。 

现在 的 问题 是 当 线程 B 还 没有 使 Q 锁 定时 ， 线 程 A 可 能 就 试图 要 解除 Q 的 锁定 了 ， 这 将 导 
致 信号 丢失 一 一 解锁 的 尝试 并 不 会 被 下 一 次 加 锁 尝 试 记 住 (例如 ， 互 斥 不 会 为 信号 量 计数 ) 。 
所 以 如 果 发 生 这 种 情况 ， 为 了 等 待 Q 上 的 加 锁 将 阻塞 线程 B， 并 且 这 个 加 锁 永 远 不 会 被 释放 ， 
直到 下 一 次 读 取 数 据 , 如 果 要 读 取 的 话 。 同 时 线程 B 也 没有 处 理 队 列 中 的 这 一 项 。 

使 用 Q 的 一 个 更 具体 的 问题 是 只 有 加 锁 互 斥 的 线程 能 够 解锁 。 所 以 A 的 第 5 步 将 出 现 错误 。 

可 以 尝试 用 一 个 计数 信号 量 ( 见 7.8 节 ) 来 替代 Q， 但 一 个 更 好 的 选择 是 使 用 POSIX 线 程 
提供 的 另 一 种 信号 机 制 : 条 件 变量 。 下 面 例子 中 显示 了 如 何 使 用 它们 : 





线程 A 线程 B 
1. Read data [B] 1. Lock M [b] 
2. Lock M [b] 2. while (queue is empty) { 
3. Put item on queue cond_wait(C, M) [B] 
4. cond_signal(C) } 
5. Unlock M 3. Remove item; update database 
6. Goto step 1 4. Unlock M 
5. Goto step 1 


第 二 个 互 斥 Q 已 经 不 见 了 ， 现 在 只 有 一 个 条 件 变 量 C。 在 线程 B 中 ，cond_wait 一 直 等 到 发 
送 了 条 件 C 信 号 ， 其 中 信号 发 送 是 在 线程 A 中 的 第 4 步 发 生 的 。 但 cond_wait 用 互 斥 M 进 行 特 殊 
的 交互 ( 它 的 第 二 个 参数 ): 当 调 用 cond_wait 时 ， 必 须 加 锁 该 互 斥 。 等 待 期 间 不 会 解锁 ， 于 
是 当 cond_wait 返 回 时 又 会 自动 加 锁 。 使 用 这 种 方式 时 ， 不 可 能 出 现 信号 混乱 或 死 锁 ， 而 在 早 
期 尝试 的 两 种 方法 中 都 存在 这 两 种 缺陷 。 并 且 在 M 加 锁 的 状态 下 ， 执 行 了 所 有 存在 于 线程 B 的 
第 2 步 和 第 3 步 的 代码 ， 情 况 也 应 该 是 这 样 。 

仅 当 队列 非 空 时 并 且 条 件 C 得 到 (线程 A) 发 送 的 信号 时 ， 为 什么 cond_wait 在 检测 队列 是 
否 为 空 的 循环 中 呢 ? 这 是 因为 cond_wait 像 其 他 所 有 的 UNIX 阻 塞 系统 调用 一 样 ， 容 易 被 中 断 
(例如 ， 被 到 达 的 传统 UNIX 信 号 中 断 ， 如 SIGINT)。 在 这 种 情况 下 ， 可 能 有 队列 仍然 为 空 的 
返回 。 测 试 此 判定 (在 这 个 例子 中 是 空 队列 ) 的 循环 确保 了 在 这 样 一 个 不 真实 的 返回 的 情况 
下 ， 可 以 正确 地 返回 到 cond_wait。 因 为 不 真实 的 返回 是 不 经 常 的 ， 所 以 浪费 的 CPU 时 间 是 无 
关 紧要 的 。 

在 调用 cond_wait 前 要 检查 队列 的 另 一 个 原因 是 ， 在 线程 B 调 用 cond_wait 前 可 能 已 经 调用 
了 cond_signal， 而 一 个 没有 线程 等 待 的 cond_signal 将 被 抛弃 ( 并 不 是 保持 未 处 理 状态 )。 所 以 
重要 的 是 不 调用 cond_wait， 除 非 必须 等 待 或 者 永远 等 待 ， 即 使 队列 非 空 。 

因此 发 送信 号 或 等 待 一 个 条 件 ， 需 要 三 个 要 素 : 条 件 变量 、 互 斥 和 判定 。 前 两 个 是 专门 
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的 数据 类 型 ， 但 判定 仅仅 是 一 些 使 程序 有 意义 的 普通 代码 一 一 它 是 条 件 变量 抽象 描绘 的 内 容 
的 具体 细节 。 
下 面 是 实际 的 pthread_cond_signal 和 pthread_cond_wait 系 统 调用 的 对 照 表 : 
pthread_cond_signal 一 一 信号 条 件 

#include <pthread.h> 


int pthread_cond_signal ( 
pthread_cond_t *cond /* condition variable */ 


de 
/* Returns 0 on success, error number on error */ 


pthread_cond_wait 一 一 等 待 条 件 
#include <pthread.h> 
int pthread_cond_wait( 


pthread_cond_t *cond, /* condition variable */ 
pthread_mutex_t *mutex /* matex */ 





Ve 
/* Returns 0 on success, error number on error */ 





当 使 用 互 扩 时， 用户 可 以 静态 地 声明 并 初始 化 一 个 条 件 变 量 ， 代 码 如 下 : 


static pthread_cond_t cond = PTHREAD_COND_INITIALIZER; 


He (自动 的 ) 中 的 条 件 变量 或 者 动态 分 配 的 条 件 变 量 需要 用 pthread_cond_init 调 用 


进行 初始 化 ， 本 书 中 不 研究 此 调用 。 
下 面 是 一 个 示例 程序 ， 它 通过 一 个 初始 线程 向 队列 中 放置 节点 ， 而 另 一 个 线程 将 节点 取 
出 并 显示 它们 的 内 容 。 当 节点 被 放 入 队列 时 ， 该 初始 线程 会 发 送 一 个 条 件 ， 而 另 一 个 线程 正 


等 待 这 个 条 件 : 
static pthread_mutex_t mtx = PTHREAD_MUTEX_INITIALIZER; 
static pthread_cond_t cond = PTHREAD_COND_INITIALIZER; 


struct node { 
int n_number; 
struct node *n_next; 
} *head = NULL; 
static void *thread_func(void *arg) 
{ 
struct node *p; 


while (true) ( 
ec_rv( pthread_mutex_lock(&mtx) ) 
while (head == NULL) 
ec_rv( pthread_cond_wait(&cond, &mtx) ) 
p = head; 
head = head->n_next; 
printf ("Got td from front of queue\n", p->n_number) ; 
free(p): 
ec_rv( pthread_mutex_unlock(&mtx) ) 
) 
return (void *)true; 


EC_CLEANUP_BGN 
(void) pthread_mutex_unlock (&mtx) ; 
EC_FLUSH ("thread_func") 


232 . HSE 





return (void *) false; 
EC_CLEANUP_END 
} 


int main(void) 

{ 
pthread_t tid; 
int i; 
struct node *p; 


ec_rv( pthread_create(stid, NULL, thread_func, NULL) ) 
for (i = 0; i < 10; i++) { 
ec_null( p = malloc(sizeof(struct node)) ) 
p->n_number = i; 
ec_rv( pthread_mutex_lock(&mtx) ) 
p->n_next = head; 
head = p; 
ec_rv( pthread_cond_signal(&cond) ) 
ec_rv( pthread_mutex_unlock(&mtx) ) 
sleep(1); 
) 
ec_rv( pthread_join(tid, NULL) ) 
printf£("All done -- exiting\n"); 
return EXIT_SUCCESS; 


EC_CLEANUP_BGN 
return EXIT_FAILURE; 

EC_CLEANUP_END 

J 


将 新 节点 加 入 队列 的 初始 化 线程 的 本 质 是 遵循 了 前 面 说 明 的 方式 一 一 使 用 加 锁 互 斥 来 调用 


pthread_cond_signal: 9 


ec_rv( pthread_mutex_lock(&mtx) ) 
p->n_next = head; 

head = p; 

ec_rv( pthread_cond_signal(&cond) ) 
ec_rv( pthread_mutex_unlock(&mtx) ) 


移 去 节点 的 线程 也 遵循 了 那 种 方式 ， 使 用 加 锁 的 互 斥 来 调用 pthread_cond_wait: 


ec_rv( pthread_mutex_lock(&mtx) ) 
while (head == NULL) 
ec_rv( pthread_cond_wait (&cond, &mtx) ) 
p = head; 
head = head->n_next; 
printf ("Got td from front of queue\n", p->n_number); 


free(p); 
ec_rv( pthread_mutex_unlock(&mtx) ) 


这 两 个 线程 能 够 成 功 运行 就 在 于 ， 当 互 斥 处 于 等 待 状态 时 ，Pthread_cond_wait 对 其 
进行 了 解锁 ， 并 且 在 返回 前 又 重新 进行 了 加 锁 。 因 此 确保 了 下 面 的 内 容 : 
* 处 理 队列 的 两 个 临界 段 都 是 在 互 斥 mtx 的 保护 下 进行 的 。 
* 当 在 第 二 个 线程 中 执行 语句 
p = head; 


时 ，head 是 非 NULL 的 。 





O 使 用 不 加 镇 的 互 斥 调用 pthread_cond_signal 也 是 可 以 的 ,实际 上 那样 可 能 可 以 增加 一 点 吞吐 量 。 
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下 面 是 得 到 的 输出 结果 : 


Got 0 from front of queue 
Got 1 from front of queue 


Got 2 from front of queue 


1 

2 
Got 3 from front of queue 
Got 4 from front of queue 
Got 5 from front of queue 
Got 6 from front of queue 
Got 7 from front of queue 
Got 8 from front of queue 
Got 9 from front of queue 


“ALL done--exiting” 消 息 怎么 了 ? 从 没 输出 过 它 。 事 实 上 ， 程 序 在 输出 了 “Got 9” 行 后 
就 挂 起 了 ， 也 可 以 键入 Ctrl-C 停 止 它 。 看 一 下 程序 ， 便 可 以 知道 原因 : 第 二 个 线程 始终 停留 在 
其 循环 中 ， 在 寻找 队列 中 始终 无 法 到 达 的 节点 ， 并 且 初 始 线程 也 始终 无 法 从 pthread_join 
调用 中 返回 。 

一 个 显而易见 的 解决 方法 是 向 队列 中 放置 某 类 “文件 结束 ”节点 来 告知 第 二 个 线程 退出 。 
或 者 ， 当 没有 其 他 更 多 的 工作 时 ， 初 始 线程 可 以 取消 第 二 个 线程 。 这 里 我 们 选择 取消 线程 的 
方法 ， 所 以 下 面 讨论 怎样 去 取消 线程 。 

5.17.5 取消 线程 
-个 线程 可 以 使 用 pthread_cancel 来 取消 另 一 个 线程 : 


pthread_cancel 一 一 取消 线程 


#include <pthread.h> 


int pthread_cancel ( 
pthread_t thread_id /* ID of thread to cancel */ 


ve 
/* Returns 0 on success, error number on error */ 





通常 ， 被 取消 的 线程 并 不 会 立刻 停止 ， 而 只 是 处 在 一 个 取消 点 〈cancellation point) E, 
当 线程 调用 到 一 个 能 够 阻塞 的 系统 调用 或 标准 函数 (如 read、waitpid 或 pthread_ 
cond_wait; 约 有 200 个 左右 8 ) 时 ， 线 程 才 停 止 。 如 果 线 程 调 用 程序 中 或 库 中 其 他 地 方 定 
义 的 函数 ， 那 么 将 很 有 可 能 会 调用 到 那 200 多 个 系统 调用 或 函数 。 因 此 用 户 应 该 考虑 将 任何 一 
个 函数 调用 作为 潜在 的 而 不 是 肯定 的 取消 点 ， 除 非 该 函数 被 文档 以 不 同方 式 专门 规定 ， 并 且 
信任 该 文档 。 

取消 点 的 意义 在 于 可 以 安全 地 执行 普通 代码 ， 而 不 需要 担心 它 被 取消 。 例 如 ， 当 知道 代 
码 会 按 次 序 完成 时 ， 可 以 修改 这 个 链表 ( 可 能 被 某 个 互 斥 保护 )。 

可 以 放心 ，“pthread” 族 的 互 斥 调用 都 不 是 取消 点 ，free、calloc、malloc 或 者 
realloc 也 不 是 。 如 果 互 斥 调 用 的 是 取消 点 ， 使 用 互 斥 将 是 非常 麻烦 的 ， 因 为 每 次 调用 
Pthread_mutex_lock 时 ， 都 必须 增加 代码 控制 取消 。 

如 果 线 程 根 本 没有 取消 点 ， 或 者 没有 可 以 依赖 的 取消 点 ， 那 么 为 了 使 取消 生效 ， 线 程 仍 
需要 存在 足够 长 的 时 间 ， 此 时 可 以 在 安全 的 地 方 放 人 一 个 或 多 个 pthread_testcancel 调 
用 来 显 式 地 提供 取消 点 。 如 果 没 有 任何 悬而未决 的 取消 ， 那 么 这 个 调用 什么 都 不 用 做 。 


O “SUS 规定 了 65 个 左右 总 是 取消 点 的 系统 调用 或 函数 ， 另 外 150 个 左右 可 以 是 取消 点 的 系统 调用 或 函数 。 
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pthread_testcancel 一 一 尝试 撤消 


#include <pthread.h> 


void pthread_testcancel (void) ; 





前 面 讲 到 ， 通 常情 况 下 线程 是 在 某 个 取消 点 取消 。 当 取消 类 型 是 PTHREAD_CANCEL_ 
DEFERRED 上 时， 是 这 样 的 ， 其 中 PTHREAD_CANCEL_DEFERRED 是 默认 值 。 如 果 使 用 
pthread_setcanceltype 函 数 (详情 请 参阅 [SUS2002]) 将 类 型 设置 成 PTHREAD_ 
CANCEL_ASYNCHRONOUS ， 那 么 线程 会 被 立即 取消 ， 这 是 个 使 人 不 安 的 想法 。 大 概 做 这 种 改 


变 的 任何 人 都 明白 这 一 点 。 
现在 修改 前 面 示例 中 的 main 函 数 ， 以 便当 队列 中 不 再 有 节点 时 取消 另 一 个 线程 : 


for (i = 0; i < 10; i++) { 
ec_null( p = malloc(sizeof(struct node)) ) 
p->n_number = i; 
ec_rv( pthread_mutex_lock(&mtx) ) 
p->n_next = head; 
head = p; 
ec_rv( pthread_cond_signal(&cond) ) 
ec_rv( pthread_mutex_unlock(&mtx) ) 
sleep(1); 

) 

ec_rv( pthread_cancel (tid) ) 

ec_rv( pthread_join(tid, NULL) ) 

printf("All done -- exiting\n"); 

return EXIT_SUCCESS; 


通过 这 个 改进 ， 程 序 正 确 地 终止 了 : 


Got 0 from front of queue 


Got 1 from front of queue 
Got 2 from front of queue 
Got 3 from front of queue 
Got 4 from front of queue 
Got 5 from front of queue 
Got 6 from front of queue 
Got 7 from front of queue 
Got 8 from front of queue 
Got 9 from front of queue 


All done -- exiting 
但 是 还 没有 完全 做 完 。 还 需要 仔细 地 查看 被 取消 的 线程 的 代码 ， 以 确保 取消 没有 使 队列 
处 在 一 个 不 连续 的 状态 。 再 次 修改 如 下 : 


static void *thread_func(void *arg) 


{ 
struct node *p; 


while (true) { 
ec_rv( pthread_mutex_lock(&mtx) ) 
while (head == NULL) 
ec_rv( pthread_cond_wait(&cond, &mtx) ) 
p = head; 
head = head->n_next; 
printf ("Got %d from front of queue\n", p->n_number); 
free(p); 
ec_rv( pthread_mutex_unlock(&mtx) ) 
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} 


return (void *)true; 


EC_CLEANUP_BGN 
(void) pthread_mutex_unlock (&mtx) ; 
EC_FLUSH("thread_func") 
return (void *) false; 

EC_CLEANUP_END 

} 


事实 上 还 有 两 个 问题 没有 解决 : 

"Pthread_cond_wait 是 一 个 取消 点 。 如 果 线 程 在 那儿 取消 ， 那 么 队列 不 会 受 影响 ， 因 

为 对 它 没有 其 他 任何 操作 了 。 但 当 离 开 Pthread_cond_wait 时 ， 总 是 重新 锁定 互 斥 。 

我 们 并 不 希望 用 互 斥 锁定 来 终止 线程 ， 因 为 那样 的 话 ， 线 程 将 永远 不 会 被 解除 锁定 。 

“printf 可 能 是 个 取消 点 。 如 果 线 程 在 那儿 终止 ， 将 不 会 释放 刚刚 被 移 除 的 节点 ， 结 果 

导致 内 存 溢出 。 

取消 线程 之 后 ， 程 序 确实 是 退出 了 ， 但 情况 并 不 总 是 这 样 的 ， 所 以 修改 这 些 漏洞 是 有 意 
义 的 。 保 护 可 能 发 生 而 不 是 经 常 发 生 的 情况 是 非常 重要 的 。 

第 二 个 问题 的 一 种 解决 方法 是 在 局 部 变量 中 保存 将 被 输出 的 数 ， 接 着 释放 节点 ， 最 后 调 
用 printf。 

但 对 第 一 个 问题 没有 有 效 的 解决 方法 。 必 须 安装 一 个 取消 清除 处 理 程序 ， 它 是 一 个 只 在 
取消 前 做 清理 工作 的 函数 。 也 可 以 在 取消 清除 处 理 程序 中 解决 第 二 个 问题 。 

取消 清除 处 理 程序 经 常 使 用 这 个 原型 (名字 并 不 重要 ): 


void cleanup_handler (void *arg); 


线程 通过 pthread_cleanup_push 安 装 清除 处 理 程序 ， 通 过 pthread_cleanup_ 
popi č: 


pthread_cleanup_push 一 一 安装 清除 处 理 程序 
#include <pthread.h> 


void pthread_cleanup_push( 
void (*handler)(void*), /* pointer to cleanup-handler function */ 


void *arg /* data to pass to function */ 
)7 


pthread_cleanup_pop 一 一 卸载 清除 处 理 程序 


#include <pthread.h> 


void pthread_cleanup_pop( 
int execute /* execute handler? */ 





当 取消 发 生 时 ， 调 用 清除 处 理 程序 。 如 果 清 除 处 理 程序 不 止 一 个 ， 那 么 将 以 入 栈 顺 序 的 
逆序 来 调用 它们 。 每 个 函数 被 调用 之 后 都 会 弹出 ， 这 样 很 好 ， 因 为 线程 也 将 随 之 消失 。 

这 些 函 数 必须 成 对 出 现 ， 同 时 它们 必须 在 同一 级 别 的 C 或 C++ 块 中 。 如 果 不 这 样 做 ， 可 能 
会 出 现 非常 奇怪 的 编译 时 错误 ， 因 为 函数 通常 是 以 嵌入 一 对 宏 来 实现 的 〈 像 
EC_CLEANUP_BGN#IEC_CLEANUP_END; 见 1.4.2 节 )。 

根据 用 户 处 理 问题 的 方式 ， 即 使 线程 正常 退出 时 ， 调 用 清除 处 理 程序 可 能 也 是 有 意义 的 。 
为 了 操作 简便 ， 可 以 把 Pthread_cleanuP_pop 中 的 execute 参 数 设置 为 真 。 
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下 面 是 thread_func 的 改进 版 本 。 注 意 为 了 确保 p 的 值 对 free 总 是 有 效 ， 显 式 地 将 p 初 
始 化 为 NULL 了 。 


static void cleanup_handler(void *arg) 
t 

free(arg); 

(void) pthread_mutex_unlock (&mtx) ; 
) 


static void *thread_func(void *arg) 
{ 
struct node *p = NULL; 


pthread_cleanup_push(cleanup_handler, p); 
while (true) { 
ec_rv( pthread_mutex_lock(smtx) ) 
while (head == NULL) 
ec_rv( pthread_cond_wait(&cond, &mtx) ) 
p = head; 
head = head->n_next; 
printf ("Got %d from front of queue\n", p->n_number) ; 
free(p); 
ec_rv( pthread_mutex_unlock(&mtx) ) 
) 
pthread_cleanup_pop(false) ; 
return (void *)true; 


EC_CLEANUP_BGN 
(void) pthread_mutex_unlock (&mtx) ; 
EC_FLUSH (*thread_func") 
return (void *) false; 
EC_CLEANUP_END 
) 
现在 事情 解决 了 。 注意 ， 当 初始 线程 已 经 停止 向 队列 中 放置 节点 时 ， 如 果 选 择 其 他 的 方 
式 终止 线程 ， 便 可 以 避免 处 理 取消 的 所 有 复杂 情况 。 这 是 需要 在 用 户 的 应 用 程序 中 考虑 的 问 
题 一 当 有 较 灵活 的 方式 可 以 处 理 这 个 工作 时 ， 不 要 使 用 取消 。 另 一 方面 ， 如 果 要 终止 的 线 
程 被 阻塞 了 (如 在 read 中 ) 并 且 不 能 很 容易 地 解除 阻塞 ， 那 么 线程 取消 可 能 是 最 好 的 选择 了 。 
和 信号 相 比 ， 它 当然 是 个 更 好 的 选择 ， 因 为 它 可 以 同时 解除 系统 调用 的 阻塞 ; 如 在 第 9 章 中 所 


讨论 的 ， 信 号 有 更 糟糕 的 副作用 。 


5.17.6 线程 和 进程 
用 户 可 能 会 对 什么 时 候 应 该 使 用 线程 和 什么 时 候 应 该 使 用 进程 感到 疑惑 。 通 常 需要 对 具 
有 同样 复杂 性 的 数据 结构 进行 并 发 处 理 时 ， 要 使 用 线程 。 三 种 常见 情况 如 下 : 
。 当 其 他 计算 正在 后 台 运行 时 ， 需 要 用 户 接口 是 活动 的 。 例 如 字 处 理 程序 中 的 后 台 输 出 或 
后 台 页 格式 化 ， 字 处 理 程序 允许 文档 的 查看 和 编辑 与 那些 后 台 操作 并 发 进行 。 
“需要 设计 好 的 算法 以 便 充分 利用 多 处 理 功能 计算 机 一 一 个 带 有 多 个 CPU 的 计算 机 。 对 
于 这 样 一 个 系统 ，UNIX 调 度 程序 能 够 自动 地 给 不 同 的 CPU 分 配 不 同 的 线程 。 
* 需 要 处 理 多 种 类 型 的 引起 系统 阻塞 调用 (如 ，read、waitpid、msgrcv) 的 事件 。 
这 将 是 下 一 节 的 主题 。 
对 于 紧 厕 合 度 不 高 的 应 用 程序 ， 将 会 使 用 进程 ， 一 些 数据 会 在 那些 应 用 程序 间 传 递 ， 但 
它们 没有 必要 直接 操作 相同 的 数据 结构 。( 使 用 共享 内 存 来 共享 数据 结构 是 可 行 的 ， 但 这 有 一 


it HE fo RHE 237 





些 麻烦 ， 第 7 章 中 会 介绍 这 些 内 容 。) 单独 的 进程 都 有 各 自 的 有 效用 户 ID、 文 件 描述 符 、 全 局 
变量 等 ， 然 而 单独 的 线程 却 没有 。 进 程 能 够 更 容易 地 被 独立 开发 、 测 试 和 调试 ， 并 且 很 少 需 
要 锁定 ， 因 此 也 很 少 出 现 不 可 检测 的 紊乱 情况 或 死 锁 。 比 较 进程 与 线程 的 另外 一 种 方法 是 ， 
可 以 说 进程 是 针对 应 用 程序 的 大 块 组 成 部 分 ， 而 线程 提供 的 是 更 细致 的 并 发 性 。 

#4: 在 编写 本 书 时 ，Linux 和 FreeBSD 中 安装 的 线程 包 通常 并 不 遵循 POSIX 标 准 ， 这 主 
要 因为 它们 在 实现 线程 时 要 么 太 弱 (在 用 户 空间 内 ， 什 么 都 做 )， 要 么 太 强 (每 个 线程 使 用 一 
个 进程 )。 前 者 的 主要 问题 是 某 个 阻塞 系统 调用 ， 像 msgrcv， 会 阻塞 所 有 的 线程 ， 不 仅仅 是 
包含 这 个 调用 的 线程 。 后 者 的 问题 是 一 些 像 waitpid 这 样 的 系统 调用 不 能 正确 地 工作 ， 因 为 
它们 处 在 错误 的 进程 中 (只 有 父 进程 可 能 会 等 待 子 进程 )。 另 一 个 麻烦 是 ， 如 果 系 统 自 带 的 线 
程 包 不 够 用 ， 那 么 用 户 可 能 不 得 不 自己 去 寻找 、 编 译 和 安装 线程 包 。 

可 以 寻找 最 新 的 称 做 Native POSIX Thread Library for Linux (NPTL) 的 Linux 线 程 实现 ， 
现在 正 寻 找 将 其 安装 到 Linux 系 统 中 的 办 法 ， 它 解决 了 所 有 POSIX 中 存在 的 重要 漏洞 。 


5.18 阻塞 问题 


本 书 已 经 介绍 了 一 些 能 够 引起 阻塞 的 系统 调用 ， 如 read、write、pthread_cond_ 
wait 以 及 waitpid， 在 本 书 中 还 有 许多 ， 特 别 是 在 第 7 章 和 第 8 章 中 。UNIX 编 程 的 一 个 最 大 
困难 是 用 户 的 应 用 程序 很 可 能 不 只 在 一 个 系统 调用 中 阻塞 ， 因 为 用 户 并 不 知道 下 一 步 将 发 生 
什么 ， 本 书 称 这 种 情况 为 阻塞 问题 。 

对 于 能 取得 文件 描述 符 的 阻塞 系统 调用 ， 像 read 和 write， 可 以 使 用 一 个 单独 的 系统 调 
用 如 select 或 Poll ( 见 4.2 节 ) 进行 阻塞 ， 直 到 一 个 或 多 个 文件 描述 符 准 备 好 才 解 除 阻塞 。 
但 通常 那 并 没有 什么 帮助 ， 因 为 等 待 的 东西 太 多 了 ， 如 进程 、 信 号 、 消 息 、 信 号 量 和 条 件 变 
量 ， 它 们 和 文件 描述 符 并 没有 联系 。 当 然 ， 可 以 在 select 或 po11 中 通知 被 阻塞 的 线程 ， 比 
方 说 ， 当 消息 到 达 时 ， 可 以 通过 向 只 为 这 种 目的 而 建立 的 管道 写 人 消息 (下 一 节 中 将 会 看 到 )， 
但 这 对 msgrcv 或 mq_receive 首 先 等 待 消息 而 阻塞 自身 的 情况 没有 用 处 。 没 有 直接 将 某 个 
消息 等 待 系统 调用 绑 定 到 文件 描述 符 的 方法 ， 这 不 是 通知 问题 ， 而 是 阻 室 问 题 。 


5.18.1 进程 和 线程 的 解决 办 法 

历史 上 ， 解 决 阻塞 问题 方法 是 创建 阻塞 的 子 进程 。。 当 阻 塞 消除 时 ， 无 论 创建 的 阻塞 子 进 
程 正 阻塞 什么 ， 它 都 会 将 其 写 人 管道 ， 并 告知 其 父 进程 已 经 发 生 的 事件 。 管 道 是 一 个 不 错 的 选 
择 ， 因 为 它们 容易 建立 (下 一 章 将 会 看 到 ) ， 而 且 因为 它们 使 用 文件 描述 符 ， 所 以 父 进程 可 以 
将 它们 合并 到 select 或 pol1 中 。 事 实 上 ， 这 么 做 是 将 父 进程 从 非 文件 描述 符 事件 阻塞 转变 成 
了 文件 描述 符 上 的 阻塞 。 在 父 进程 中 使 用 select 或 Pol1 转 换 任 何 东西 都 是 最 好 的 。 

但 是 ， 在 UNIX 中 进程 是 重量 级 的 对 象 一 创建 和 调度 开销 很 大 ， 而 且 供应 有 限 。 同 时 两 
个 进程 共享 同样 的 数据 结构 是 非常 麻烦 的 。 在 阻塞 发 生 时 ， 如 果 事 件 恰 好 能 够 排队 等 候 ， 并 
且 父 进程 无 论 什么 时 候 方便 ， 都 可 以 检查 它 ， 那 么 这 就 可 以 了 。 使 用 共享 进程 和 信号 量 ， 在 
进程 间 设置 事件 队列 是 可 行 的 ， 但 交互 进程 信号 量 可 能 太 缓慢 了 ,尤其 对 于 事件 产生 迅速 的 
情况 。 
另 一 个 使 用 独立 进程 所 产生 的 问题 是 某 些 对 象 (如 文件 描述 符 ) 无 法 被 传递 给 现存 的 进 
程 (至 少 是 不 方便 的 )。 它 们 只 能 够 通过 继承 来 传递 ， 因 此 如 果 进 程 A 负 责 阻塞 JO， 并 且 已 经 


O 该 技 术 是 我 母亲 在 1953 年 左右 发 明 的 。 在 食品 店 ， 她 让 一 个 小 孩 在 热 食品 处 排队 ， 让 另 一 个 小 孩 在 鱼 食品 
处 排队 ， 而 她 在 不 需要 排队 的 地 方 购买 商品 。 但 是 偶尔 也 会 阻塞 ， 因 此 她 还 有 3 个 孩子 。 
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在 运行 了 ， 那 么 刚刚 打开 网 络 连接 的 进程 B 是 不 能 允许 进程 A 去 等 待 以 获得 新 文件 描述 符 的 。 

对 阻塞 问题 比较 新 的 解决 方法 是 使 用 POSIX 线 程 。 一 个 简单 的 方法 是 为 每 个 要 阻塞 的 对 
象 创建 一 个 新 线程 (例如 ， 消 息 队列 、 文 件 描述 符 、 信 号 量 )。 每 个 线程 将 只 引发 一 个 合适 的 
阻塞 系统 调用 (0_NONBLOCK 清 除 )。 当 该 系统 调用 返回 时 ， 线 程 会 向 共享 队列 中 添加 一 个 事 
E (为 了 保护 使 用 互 斥 ) 然后 返回 到 阻塞 系统 调用 中 。 之 后 ， 主 线程 便 只 有 一 件 要 阻塞 的 东 
VG: 队列 中 的 当前 事件 。 和 5.17.4 节 的 例子 非常 相似 ， 当 队列 为 非 空 时 ， 阻 塞 线程 将 使 用 条 件 
变量 给 主线 程 发 送信 号 。 


5.18.2 统一 的 事件 管理 程序 原型 


这 里 介绍 一 个 普遍 的 方法 来 解决 阻塞 问题 ， 该 方法 称 为 统一 的 事件 管理 程序 (Unified 
Event Manager)。 它 是 一 个 任何 应 用 程序 都 可 以 使 用 的 库 函 数 集 。 应 用 程序 可 以 注册 一 个 能 
促使 该 库 创 建 线程 进行 阻塞 的 事件 。 在 等 待 单个 事件 队列 的 附近 重新 组 织 应 用 程序 。 当 事件 
出 现 后， 应 用 程序 会 把 它 从 队列 中 取 走 ， 对 其 进行 处 理 ， 然 后 继续 等 待 。 

本 书 中 没有 给 出 所 有 的 代码 ， 如 果 需 要 ， 可 以 到 网 站 上 去 看 。 之 所 以 称 其 为 原型 ， 是 因 
为 对 关键 应 用 程序 来 说 ， 其 效率 不 够 高 ， 同 时 因为 使 用 了 本 书 所 有 例子 中 采用 的 “ec” 错 误 
检查 方法 ， 其 中 “ec” 本 身 也 是 个 原型 。 

下 面 开始 列举 在 UNIX 中 可 能 被 等 待 的 所 有 事件 : 


enum UEM_TYPE { 


UEM_SVMSG, /* System V message */ 


UEM_PXMSG, /* POSIX message */ 
UEM_SVSEM, /* System V semaphore */ 
UEM_PXSEM, /* POSIX semaphore */ 


file-descriptor set - read */ 
file-descriptor set - write */ 
file-descriptor set - error */ 


UEM_FD_READ, a 
UEM_FD_WRITE, /* 
UEM_FD_ERROR, /* 


UEM_SIG, /* signal */ 
UEM_PROCESS, /* process */ 
UEM_HEARTBEAT, /* heartbeat */ 
UEM_NONE /* none */ 


) 
最 后 两 个 需要 解释 一 下 : UEM_HEARTBEAT 是 在 某 些 特定 间隔 获得 一 个 周期 性 事件 的 方 
法 ， 之 所 以 UEM_NONE 也 在 其 中 ， 是 因为 它 是 一 个 能 使 用 某 个 值 指示 某 物 为 空 的 好 方法 。 
当 注 册 一 个 事件 时 ， 需 用 一 个 结构 来 明确 地 跟踪 需要 从 阻塞 系统 调用 得 到 什么 。 例 如 发 
起 select 时 ， 需 要 设置 一 个 文件 描述 符 ， 所 以 该 结构 为 每 个 UEM_TYPE 保 留 了 所 有 这 种 类 型 
的 数据 。 


struct uem reg { 


enum UEM_TYPE ur_type; 
pthread_t ur_tid; 
union { 
int ur_mqid; 
struct { 
int s_semid; 
struct sembuf *s_sops; 
) ur_svsem; 
#ifdef POSIX_IPC 
mqd_t ur_mqd; 
sem_t *ur_sem; 
#endif 
int ur_signum; 


type of registration */ 
thread ID */ 


System V message-queue ID */ 
System V semaphore-set ID */ 
semaphore operations */ 

POSIX message-queue descriptor */ 


POSIX semaphore */ 


signal number */ 
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tite BE 
pid_t ur_pid; /* process ID */ 
long ur_usecs; /* microseconds (for heartbeat) */ 
fd_set ur_fdset; /* file-descriptor set */ 


) ur_resource; 
void *ur_data; 
size_t ur_size; 


/* data to be queued with event */ 
/* size (used for various purposes) */ 

Me 

虽然 宏 POSIX_IPC 不 是 一 个 标准 宏 ， 但 在 原型 中 使 用 了 它 。 它 是 以 一 个 非常 复杂 的 方式 
从 真实 的 特征 测试 宏 中 设 定 的 ， 这 在 1.5.4 节 中 解释 过 了 。 之 所 以 这 里 需要 它 ， 是 因为 Linux 和 


FreeBSD 至 今 也 不 支持 POSIX IPC. 

当 应 用 程序 想 要 注册 某 一 事件 类 型 时 ， 需 要 调用 uem_register_E 形 式 的 函数 ， 这 里 的 
E 是 事件 类 型 的 缩写 。 例 如 ， 下 面 注 册 的 调用 实现 了 等 待 进程 终止 : 

ec_false( uem_register_process(pid, NULL) ) 

这 里 没有 直接 调用 waitpid， 因 为 那样 会 阻塞 。 当 进程 Pid 终 止 时 ， 包 含 退出 状态 的 事 
件 会 被 放置 到 队列 中 ， 并 且 注册 这 个 事件 的 应 用 程序 也 可 以 得 到 这 个 状态 。 下 面 简单 地 看 一 


下 那些 细节 。 
这 是 uem_register_process 的 一 些 代码 : 


bool uem_register_process(pid_t pid, void *data) 
{ 
struct uem_reg *p; 


ec_null( p = new_reg() ) 

p->ur_type = UEM_PROCESS; 

p->ur_resource.ur_pid = pid; 

p->ur_size = 0; 

p->ur_data = data; 

ec_rv( pthread_create(&p->ur_tid, NULL, thread_process, p) ) 
return true; 


EC_CLEANUP_BGN 
return false; 

EC_CLEANUP_END 

} 


所 有 uem_register_E 调 用 使 用 的 函数 new_reg， 只 分 配 了 一 个 结构 。 这 里 把 它 放 到 
一 个 独立 的 函数 中 ， 是 为 了 防止 做 当前 设计 没有 的 一 些 常 用 的 初始 化 工作 。 


static struct uem reg *new_reg(void) 

( 
struct uem_reg *p; 
ec_null( p = calloc(1, sizeof(struct uem_reg)) ) 
return p; 


EC_CLEANUP_BGN 
return NULL; 

EC_CLEANUP_END 

} 


注册 信息 只 能 被 传递 给 线程 函数 ， 代 码 如 下 : 


static void *thread_process(void *arg) 


f 


struct uem_event *e = NULL; 
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pthread_cleanup_push(cleanup_handler, e); 

ec_null( e = calloc(1, sizeof(struct uem_event)) ) 

e->ue_reg = (struct uem_reg *)arg; 

if (waitpid(e->ue_reg->ur_resource.ur_pid, &e->ue_result, 0) == -1) 
e->ue_errno = errno; 

ec_false( queue_event(e) ) 

pthread_cleanup_pop( false) ; 

return NULL; 


EC_CLEANUP_BGN 
uem_free(e); 
EC_FLUSH(*thread_process") 
return NULL; 
EC_CLEANUP_END 
ti 
这 个 函数 首先 把 一 个 清除 句柄 (在 5.17.5 节 中 解释 ) 压 人 了 栈 中 。 然 后 当 这 个 事件 发 生 时 ， 
程序 会 分 配 一 个 事件 结构 ， 并 将 其 加 入 到 事件 队列 中 (waitpid 在 这 种 情况 下 返回 )。 下 面 
是 所 有 这 些 线程 使 用 的 事件 结构 : 
struct uem_event { 
struct uem_reg *ue_reg; 
void *ue_buf; 
ssize_t ue_result; 
int ue_errno; 
struct uem event ‘ue_next; 
ve 


注意 ， 它 重新 指向 了 注册 ， 该 注册 包含 了 此 类 型 所 有 事件 都 常用 的 数据 。ue_buf 成 员 用 
于 防止 数据 必须 返回 的 情况 (例如 消息 ), 但 在 这 个 示例 中 没有 使 用 它 。 我 们 确实 有 这 种 状态 ， 
但 我 们 将 其 被 放 到 了 ue_result 成 员 中 。 如 果 发 生 错 误 ，errno 将 成 为 e_errno 的 成 员 ; 
获得 这 个 事件 的 应 用 程序 需要 核对 成 员 是 否 为 零 ， 以 便 查 看 是 否 被 等 待 的 函数 返回 了 错误 。 
ue_next 成 员 是 为 了 把 uem_event 结 构 链接 到 某 个 事件 队列 中 。 

如 果 分 配 了 事件 结构 ， 那 么 除了 清除 句柄 需要 调用 uem_free (这 里 没有 给 出 ) 释放 事 
件 结构 之 外 ， 清 除 句柄 与 5.17.5 节 中 的 一 样 : 


static void cleanup_handler (void *arg) 


{ 
(void)uem free( (struct uem event *)arg); 


) 


从 队列 中 移 除 事件 的 应 用 程序 也 要 对 调用 uem_free 负 责 。 

向 队列 中 放 入 事件 的 实际 工作 将 由 queue_event 来 完成 。 当 waitpid 返 回 时 ， 线 程 会 
调用 它 。 注 意 即 使 aitpid 报 告 出 现 了 错误 ,事件 也 是 要 加 入 队列 的 ， 这 样 应 用 程序 才能 发 
现 这 些 错误 的 来 源 。 

static pthread_mutex_t uem mtx = PTHREAD_MUTEX_INITIALIZER; 

static pthread_cond_t uem_cond_event = PTHREAD_COND_INITIALIZER; 

static struct uem_event *event_head; 


static bool queue_event (struct uem_event *e) 


{ 
struct uem event *cur; 


ec_rv( pthread_mutex_lock(&uem_mtx) ) 
if (event_head == NULL) 
event_head = e; 
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else { 
for (cur = event_head; cur->ue_next != NULL; cur = cur->ue_next) 


/* queue same error only once */ 
if (e->ue_errno != 0 && 
cur->ue_reg->ur_type == e->ue_reg->ur_type && 
cur->ue_errno e->ue_errno) { 
ec_rv( pthread mutex_unlock(&uem mtx) ) 
uem_free(e); 
return true; 







) 
cur->ue_next = e; 
3 
ec_rv( pthread_cond_signal (&uem_cond_event) ) 
ec_rv( pthread_mutex_unlock{&uem mtx) ) 
return true; 
EC_CLEANUP_BGN 
(void) pthread_mutex_unlock (&uem_mtx) ; 
return false; 
EC_CLEANUP_END 
J 
这 个 函数 继承 了 5.17.4 节 的 方法 ， 即 使 用 条 件 变量 发 送 事件 信号 。 尽 管 如 此 ， 如 果 调 用 
queue_event 的 线程 不 断 获得 某 一 错误 ， 那 么 错误 事件 (ue_errno 非 零 ) 就 会 被 不 断 地 重 
复生 成 。 例 如 ， 如 果 传递 给 waitpid 的 进程 ID 是 无 效 的 ， 那 么 waitpid 将 保持 返回 状态 , H 
到 取消 线程 。 这 样 浪费 CPU 时 间 已 经 够 槽 糕 了 ， 但 当然 也 不 希望 同样 的 报告 填 满 事件 队列 。 
所 以 ,在 将 错误 事件 放 入 队列 之 前 ， 必 须 确定 队列 中 没有 和 它 相 似 的 事件 。( 这 不 是 最 好 的 方 


法 ,但 这 是 一 个 原型 ， 对 吗 ? ) 
如 果 要 把 事件 放 入 到 队列 中 ， 那 么 首先 要 用 代码 


cur->ue_next = e; 


把 它 排队 ， 然 后 发 送 条 件 ， 为 互 斥 解锁 ， 然 后 返回 。 
除了 诸如 uem_register_process 的 注册 函数 外 ， 基 本 上 这 就 是 整个 库 了 。 这 里 就 不 


介绍 那些 注册 函数 了 ， 因 为 它们 做 的 事情 几乎 都 是 相同 的 ， 只 是 在 阻塞 系统 调用 上 有 所 不 同 。 
也 就 是 说 ，uem_register_svmsg 启 动 包含 msgrcv 调 用 的 线程 ，uem_register_pxmsg 
启动 包含 mq_receive 调 用 的 线程 ， 等 等 。 它 们 都 使 用 gueue_event。 

使 用 库 的 应 用 程序 使 用 如 下 的 代码 : 

struct uem event *e; 


ec_false( uem register_process (pid, NULL) ) 
ec_false( uem_register_pxmsg(mqd, NULL) ) 


while (true) { 
ec_null( e = uem wait() ) 
if (e->ue_errno != 0) 
. /* display error */ 
else 
switch (e->ue_reg->ur_type) ( 
case UEM_PXMSG: 
. /* process received message */ 
break; 
case UEM_PROCESS: 
. /* process status from terminated process */ 


break; 
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} 
} 


这 里 最 重要 的 事情 是 : 无 论 有 多 少 种 不 同 的 事件 需要 处 理 ， 应 用 程序 都 只 在 一 个 地 方 阻 
塞 ， 即 uem_wait 调 用 。 下 面 是 uem_wait 的 代码 ; 注意 ， 和 queue_event 一 样 ， 它 遵照 的 
也 是 5.17.4 节 中 的 条 件 变量 : 


struct uem_event *uem_wait (void) 


{ 
struct uem_event *e = NULL; 


ec_rv( pthread_mutex_lock(&uem_mtx) ) 


while (event_head == NULL) 
ec_rv( pthread_cond_wait (&uem_cond_event, &uem_mtx) ) 


e = event_head; 
event_head = event_head->ue_next; 
ec_rv( pthread_mutex_unlock (&uem_mtx) ) 
return e; 


EC_CLEANUP_BGN 
(void) pthread_mutex_unlock (&uem_mtx) ; 


return NULL; 

EC_CLEANUP_END 

) 
当 判 定 为 真 时 (队列 中 现存 的 事件 )， 将 从 队列 中 移 除 该 事件 ， 然 后 返回 一 个 指向 它 的 指针 。 
像 先前 所 提 到 的 ， 用 uem_free 调 用 释放 内 存 是 调用 者 的 责任 。 

除了 其 他 一 些 额 外 的 细节 和 注册 函数 外 ， 这 便 是 整个 系统 。 它 解决 了 阻塞 问题 ! 

因为 它 对 线程 是 非常 可 靠 的 ， 所 以 这 种 方法 像 基础 线程 实现 一 样 的 好 。 线 程 必 须 是 快 的 、 
轻 量 级 的 、 丰 富 的 ， 并 且 它 们 必须 严格 地 遵循 POSIX 标 准 。 否 则 开销 太 大 ， 会 消耗 宝贵 的 系 
统 资 源 ， 而 且 在 程序 中 也 会 有 许多 的 小 漏洞 ， 因 为 所 有 的 多 线程 都 是 很 难 查找 的 。 

如 果 有 兴趣 ， 可 以 试 着 使 用 进程 取代 线程 重新 写 uem 包 。 你 会 发 现 写 它 是 非常 困难 的 ， 而 
且 想 提高 效率 是 极其 困难 的 。 但 这 种 努力 将 会 有 助 于 理解 线程 的 重要 性 。 


练习 


5.1 如 5.2 节 末尾 建议 的 那样 ， 纠 正 setenv 和 unsetenv 中 存在 的 内 存 溢出 问题 。 

5.2 重新 编写 5.2 节 中 的 环境 处 理 函 数 ， 以 便 能 像 标准 shell 那 样 处 理 被 输出 的 变量 。 也 就 是 说 ， 只 有 当 特 
别 宣布 了 在 函数 (如 env_export ) 中 输出 时 ， 才 输出 变量 的 更 新 值 。 想 一 想 是 否 需要 更 新 environ 
值 ， 何 时 更 新 ， 是 原样 使 用 已 有 的 getenv 函 数 ， 还 是 需要 替换 它 。 

5.3 编写 实现 扫描 形 如 variable=value 赋 值 参数 的 程序 ， 恰 当地 更 新 环境 ， 接 着 用 第 一 个 未 赋值 参数 执行 
程序 。 其 他 未 赋值 参数 成 为 被 调用 程序 的 参数 。 不 要 使 用 fork。 

5.4 编写 一 个 与 5.3 节 execvp2 类 似 的 函数 execlp2。 使 用 标准 C 变 量 参数 设施 (va_arg 等 )。 

5.5 增强 5 .3 节 中 exec_path 函 数 的 功能 ， 以 使 它 支持 那 节 讨论 的 #! 特 征 。 

5.6 如 5.3 节 脚注 中 建议 的 那样 ， 设 计 和 实现 execvx 和 execlx 函 数 以 替代 6 个 exec 系 统 调用 。 在 实现 中 
可 以 随意 使 用 exec 系 统 调 用 。 

5.7 用 自己 的 话 (也 可 以 用 图 表 ) 解释 fork 和 exec 的 典型 实现 。( 需 要 做 一 些 研究 ， 例 如 参阅 [Bac1986]、 
[McK1996]、[Mau2001] 或 者 [Bov2001]。) 然后 说 明 如 何 能 够 更 加 有 效率 地 实现 posix_spawn。 不 用 
写 代码 一 可 以 用 伪 代 码 或 清楚 的 一 步 一 步 的 算法 。 

5.8 如 5.5 节 末尾 建议 的 那样 ， 研 究 posix_spawn 的 语义 [参阅 SUS2002] ， 并 用 fork 和 exec 来 实现 它 . 首 
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先 ， 跳 过 属性 和 动作 ， 然 后 实现 动作 ， 最 后 再 实现 属性 。 为 了 完成 整个 工作 ， 需 要 实现 相关 的 系统 
调用 (例如 ，posix_spawn_file_actions_init)。 尽 管 你 不 关心 实时 系统 ， 但 这 是 一 个 极其 有 
用 的 练习 。 

5.9 设计 并 运行 实验 来 检测 fork 使 用 的 CPU 时 间 。( 也 许 需要 使 用 1.7.2 节 的 timestart 和 timestop。) 
如 果 你 有 权 使 用 它们 ， 那 么 可 以 尝试 不 同 的 UNIX 版 本 和 硬件 。 如 果 系统 支持 ， 比 较 fork 和 vfork 的 
使 用 时 间 。 对 posix_spawn 也 采取 同样 的 步骤 。 

5.10 研究 其 他 系统 (如 VMS、0S/390、Windows 和 MacOS ) 提供 的 与 exec 和 fork 对 等 的 系统 调用 。 比 

较 它 们 的 特征 ， 并 总 结 它们 的 优点 和 缺点 。 

5.11 在 5.17.3 节 ， 在 用 get_x(0) 进 行 读 取 和 用 get_x(1) 增 加 步 长 之 间 ， 另 一 个 线程 可 能 还 会 增加 x 的 
步 长 ， 结 果 导 致 x 变 得 太 大 。 重 新 编写 该 示例 ， 检 测 和 增加 步 长 x 时 都 利用 单个 函数 调用 ， 这 样 可 以 
修正 这 个 问题 。 

5.12 写 一 个 交互 的 全 屏幕 应 用 程序 ( 见 4.8 节 ) fileview， 实 现 用 一 条 水 平 线 把 屏幕 分 割 为 两 部 分 。“s” 
命令 提示 搜索 字符 串 ， 搜 索 标准 的 包含 文件 (至少 )， 从 中 找 出 那些 在 一 行 或 者 多 行 上 包含 该 字符 
串 的 文件 ， 并 在 上 面部 分 显示 匹配 的 路 径 名 。 当 显示 它们 时 或 显示 之 后 ,“v” 命 令 在 下 面部 分 显示 
被 选择 文件 的 内 容 ， 并 高 亮度 显示 匹配 的 字符 串 。 选 择 两 个 键 用 于 上 下 滚动 上 面部 分 ， 选 择 其 他 两 
个 键 用 于 下 面部 分 。 为 了 使 “v” 容 易 实现 ， 为 上 面部 分 的 路 径 名 进行 编号 ， 并 安排 “v” 命 令 用 文 
件 对 应 的 编号 给 出 文件 提示 。 注 意 短语 “ 当 显示 它们 时 ”中 的 “ 当 ”"， 它 暗示 必须 使 用 多 线程 ， 因 
为 Curses 不 一 定 是 线程 安全 的 ， 所 以 必须 使 用 互 斥 保 护 对 它 的 访问 。 此 外 还 要 有 一 个 退出 应 用 的 
“9” 命 令 . 

5.13 不 用 多 线程 而 用 进程 ， 解 释 如 何 执行 fileview (练习 5.12)。 首 先 可 能 必须 研究 第 7 章 。 如 果 认 为 
不 用 多 线程 不 可 以 实现 ， 那 么 请 解释 不 能 实现 的 原因 。( 因为 尝试 证 明 的 是 一 个 否定 陈述 ， 所 以 解 
释 必 须 很 有 说 服 力 。) 

5.14 写 一 个 用 于 尽 可 能 多 地 显示 附录 A 中 列 出 的 进程 属性 的 程序 ， 现 在 限制 仅 显 示 本 书 前 面 5 章 讨论 的 
内 容 ， 以 后 可 以 拓展 自己 的 程序 包含 全 部 内 容 。 如 果 某 些 内 容 不 能 显示 ， 解 释 不 能 实现 的 原因 。 为 
了 使 输出 有 意义 ， 可 以 在 打开 某 些 文件 的 开始 部 分 执行 一 些 系统 调用 ， 设 置 一 些 信号 动作 等 。 


第 6 章 基本 的 进程 间 通 信 


6.1 概述 


既然 知道 了 如 何 创建 进程 ， 就 需要 知道 如 何 连接 它们 以 便 它们 能 够 相互 通信 。 本 章 将 使 
用 管道 来 实现 这 项 工作 ， 其 中 采用 的 基本 技术 是 所 有 UNIX 版 本 都 支持 的 。 下 一 章 中 将 使 用 更 
高 效 的 、 更 鲁 棱 的 、 不 太 通用 的 、 更 易 出 错 的 编程 技术 来 研究 进程 间 通 信 。 

作为 shell 设 施 ， 管 道 为 大 多 数 UNIX 用 户 所 熟悉 。 例 如 ， 要 显示 一 个 登录 用 户 的 排序 列表 ， 
可 以 输入 如 下 命令 : 

$ who | sort | more 

这 里 有 三 个 进程 ， 由 两 个 管道 连接 在 一 起 。 数 据 只 从 一 个 方向 流入 ， 从 who 到 sort 到 
more。 使 用 系统 调用 也 可 以 建立 双向 通信 的 管道 (从 进程 和 到 进程 B 和 从 进程 B 回 到 进程 A) 
和 环行 管道 《从 A 到 B 到 C 到 A)。 但 是 ， 大 多 数 shell 都 没有 为 这 些 更 详细 的 任务 提供 提示 ， 所 
以 大 多 数 UNIX 用 户 都 不 知道 它们 。9 

这 里 首先 给 出 一 些 与 单 向 通信 连接 进程 相关 的 简单 例子 ， 然 后 将 会 改进 第 5 章 开发 的 原始 
shell。 新 shell 将 足够 称 得 上 是 “真正 的 ”shell 一 它 将 能 够 处 理 管道 、 后 台 进 程 、1/O 重 定向 
以 及 引用 的 参数 。 但 它 缺少 文件 名 生成 (例如 ，1s t*.?) 和 编程 结构 (如 if 语句 )。 最 后 
说 明 如 何 连接 双向 通信 进程 ， 并 且 指出 可 能 引起 的 死 锁 问 题 。 


6.2 管道 
本 节 讨论 的 是 未 命名 管道 ， 尽 管 这 里 描述 的 许多 行为 同样 也 适用 于 FIFO (命名 管道 )。 在 
7.2 节 中 将 详 述 FIFO 。 


6.2.1 pipe 系 统 调用 


pipe 一 一 建立 管道 


#include <unistd.h> 


int pipe( F 
int pfd[2] /* file descriptors */ 


) 
/* Returns 0 on success or -l on error (sets errno) */ 





pipe 系 统 调用 可 以 创建 一 个 管道 ， 这 个 管道 是 由 pfd 数 组 返回 的 两 个 文件 描述 符 表示 的 
一 个 通信 信道 。 向 pfd[ 1 ] 中 写 是 往 管道 输入 数据 ; 从 pfd[ 0] 中 读 是 从 管道 取出 数据 。 

在 UNIX 文 档 中 有 一 个 叫 作 PIPE_BUF 的 参数 ， 可 以 把 它 当 作 管道 缓冲 区 的 大 小 。 如 果 多 
个 进程 或 线程 正在 对 同一 个 管道 进行 写 操作 ， 那 么 PIPE_BUF 或 更 少 字 节 的 写 操作 应 该 保证 


O 通过 FIFO 可 以 创建 这 个 任务 ， 但 shell 是 个 无 知 的 旁观 者 ， 即 它 会 认为 它们 是 规则 的 文件 。 
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为 原子 操作 一 一 将 没有 其 他 写 进程 的 数据 的 交叉 操作 。 如 果 多 个 进程 都 在 写 结构 化 的 数据 ， 
那么 这 个 属性 就 显得 非常 重要 了 ， 因 为 没有 它 将 不 能 保证 读 进程 能 够 读 到 有 效 的 数据 。 
PIPE_BUF 要 始终 不 小 于 512， 但 是 可 以 在 运行 期 间 通过 调用 fpathconf ( 见 1.5.6 节 ) 得 到 
某 个 特定 管道 的 实际 值 : 


int pfd[2]; 
long v; 


ec_negl( pipe(pfd) ) 
errno = 0; 
v = fpathconf (pfd[0], _PC_PIPE_BUF) 7 


if (errno != 0) 
EC_FAIL 
else if (v == ~1) 
printf("No limit for PIPE_BUF\n"); 
else 
printf ("PIPE_BUF = #ld\n", v); 
在 本 系统 中 ， 在 Solaris 上 得 到 的 是 5120，FreeBSD 的 是 512，Linux 的 是 4096。 
最 初 ， 管 道 清除 了 0_NONBLOCK ( 见 4.2.2 节 )， 也 就 是 说 ， 读 和 写 可 能 会 阻塞 。 也 许 你 已 
经 猜 到 了 ， 可 以 使 用 fcnt1 ( 见 3.8.3 节 ) 来 设置 标志 。 下 面 将 解释 这 个 标志 是 怎样 影响 read 


和 write 的 。 


6.2.2 管道 (和 FIFO) VORE 


本 节 中 的 所 有 内 容 都 既 适 用 于 管道 ， 也 适用 于 FIFO (7.2 节 中 将 进一步 讨论 )， 并且 这 里 
的 术语 “管道 ” 指 的 是 它们 两 个 。 

某 些 1/O 系 统 调用 对 管道 文件 描述 符 的 操作 与 对 普通 文件 的 不 同 ， 而 且 有 一 些 根本 什么 都 
不 做 ， 如 下 面 列表 概括 的 (这 些 是 主要 的 几 个 ，[SUS2002] 有 更 详细 的 内 容 ): 

write 数据 按 到 达 顺 序 依 次 写 入 管道 ,通常 (清除 0_NONBLOCK)， 如 果 管 道 满 了 ， 
write 将 阻塞 ， 直 到 read 移 除了 足够 的 旧 数据 ; 没有 局 部 写 。 依 据 UNIX 的 不 同 实现 ， 管 道 
的 容量 有 所 不 同 ， 但 显然 总 是 不 小 于 PIPE_BUEF 字 节 。 如 果 设置 了 oO_NONBLOCK ， 而 且 将 被 
写 入 的 数量 是 PITPE_BUF 或 更 少 ， 则 write 要 么 立即 写 人 数据 ， 要 么 返回 ~1 且 把 errno 设 置 
为 EAGAIN; 没有 局 部 写 。 但 如 果 数 量 超过 PIPE_BUF ， 局 部 写 是 有 可 能 的 。 

read “和 写 人 时 一 样 ， 按 到 达 顺 序 读 取 管道 数据 。 一 旦 读 了 数据 ， 就 不 能 重读 数据 或 将 
它 放 回 。 通 常 (清除 0_NONBLOCK) 情况 下 ， 如 果 管 道 是 空 的 ， 那 么 read 将 阻塞 ， 直 到 至 少 
有 一 字 节 的 数据 可 用 ， 除 非 关闭 所 有 的 写 入 文件 描述 符 ， 这 种 情况 下 ，read 返 回 0 (通常 是 
文件 结束 指示 )。 但 read 的 第 三 个 参数 的 字 节 计数 不 必要 满足 一 一 只 要 和 那个 时 刻 读 取 的 字 
节 相同 ， 并 且 返 回 一 个 合适 的 计数 就 行 了 。 当 然 ， 永 远 也 不 会 超越 该 字 节 计数 ; 下 一 个 读 操 
作 可 以 读 没有 被 读 的 字 节 。 如 果 设 置 了 0_NONBLOCK， 那 么 空 管道 上 的 读 操作 将 返回 -1， 并 
且 设 置 errno 为 EAGAIN。 

close 关闭 管道 比 关闭 文件 做 的 工作 要 多 。 不 仅 要 释放 文件 描述 符 使 之 可 以 重用 ,而 且 
当 关闭 了 所 有 的 写 文件 描述 符 时 ， 对 读 进程 而 言 ， 它 还 充当 了 文件 结束 的 角色 。 如 果 关 闭 所 
有 读 文件 描述 符 ， 那 么 在 写 文件 描述 符 上 的 write 会 引起 错误 。 通 常 还 会 产生 一 个 致命 的 信 
号 ; 见 9.1.3 节 。 

fstat 除了 决定 文件 描述 符 向 管道 打开 以 外 ， 对 管道 的 用 途 不 大 。 通 常 返回 的 大 小 是 
管道 中 的 字 节 数 ， 但 是 任意 一 个 UNIX 标 准 都 不 需要 这 个 数 。 
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dup 在 6.3 节 中 将 解释 这 个 系统 调用 和 Gup2。 

lseek ”不 和 管道 一 起 使 用 。 这 意味 着 即使 管道 包含 一 个 消息 序列 ， 浏 览 这 些 序列 也 无 
法 查看 到 下 一 条 将 被 读 取 的 消息 。 就 像 一 个 牙膏 管 里 面 的 牙膏 一 样 ， 必 须 将 它 取出 才能 检查 
它 ， 然 而 取出 之 后 就 无 法 将 它 再 放 回去 了 。 这 就 是 为 什么 那些 在 进程 间 传 递 消息 的 应 用 程序 
很 难 使 用 管道 的 原因 之 一 。 

这 里 没有 像 所 期 望 的 那样 明确 列 出 系统 调用 对 管道 的 操作 (如 ，select、pol1)。 例 如 ， 
当 select 测 试 的 一 个 文件 描述 符 对 某 个 管道 是 打开 的 ， 那 么 select 会 测试 read 或 write 
是 否 会 阻塞 。 

对 于 写 操作 而 言 ， 原 子 和 非 原子 之 间 的 关系 ， 阻 塞 和 非 阻塞 之 间 的 关系 ， 完 全 的 、 部 分 
的 和 延迟 的 (返回 -1 并 带 有 值 为 FAGAIN 的 errno) 之 间 的 关系 ， 这 些 关系 本 身 都 有 点 复杂 。 
表 6-1 (基于 POSIX1990 中 的 表格 ) 对 理解 这 些 关系 会 有 帮助 。 前 两 列 包含 了 可 能 会 出 现 的 
O_NONBLOCK 标 志 的 状态 和 将 要 写 人 的 数量 。 而 后 三 列 说 明了 满 管道 、 能 立即 接受 部 分 数据 
的 管道 、 能 接受 所 有 数据 的 管道 会 发 生 什么 。 


表 6-1 写 管道 







































= 部 分 立即 可 写 的 
O_NONBLOCK? 写 的 总 数 无 立即 可 写 的 立即 可 写 的 
a (>=1 和 < 总 数 ) 所 有 立即 可 写 的 
清除 <=PIPE_BUF 阻塞 ， 完 全 写 ; 原 | ME: 完全 写 ; 原 KAR: 完全 写 ; 原 
子 的 子 的 了 的 
清除 >PIPE_BUF 阻塞 ;完全 写 ; 非 PAR; 完全 写 ; 非 AREA; 完全 写 ; 
ioe 原子 的 原子 的 非 原子 的 
设置 <=PIPE_BUF EAGAIN EAGAIN | KAK: 完全 写 ; 原 
子 的 
设置 >PIPE_BUF EAGAIN KAR: 部 分 或 不 阻塞; 完全 、 部 分 
EAGAIN; 原子 的 或 EAGAIN; 非 原子 的 











在 该 表 中 ， 符 号 “完全 写 ” 表 示 write 直 到 所 有 请 求 的 数量 都 被 写 人 时 才 返 回 。“ 非 原子 
的 ”意味 着 数据 全部 都 在 管道 中 ， 但 不 必 是 连续 的 (这 种 情况 下 ， 即 使 最 开始 的 PIPE_BUF 
个 字 节 也 不 保证 为 连续 的 )。“EAGAIN” 代 表 write 返 回 值 为 -1, 且 把 errno 设 置 为 EAGAIN。 
“部 分 的 ”代表 write 返回 的 比 要 求 返回 的 数量 少 。 

第 二 行 末 尾 带 有 “可 能 阻塞 ”符号 的 原因 是 : 当 write 开始 时 ， 所 有 的 数据 都 准备 好 ， 
因为 write 是 非 原 子 的 ， 所 以 在 write 完成 之 前 ， 另 一 个 进程 或 线程 可 能 填充 一 部 分 管道 而 
使 它 阻塞 ， 因 此 可 能 阻塞 是 真 的 。 

再 一 次 对 管道 的 写 操作 进行 概括 : 

。 如 果 请 求 的 数量 是 PIPE_BUF 或 更 少 ， 那 么 写 操作 将 总 是 原子 的 【意味 着 绝对 不 会 局 部 写 )。 

。 如 果 清 除了 o_NONBLOCcCK (通常 情况 )， 即 使 它们 是 非 原子 的 ， 写 操作 也 决 不 会 是 局 部 

的 。 

。 仅 当 设置 了 0_NONBLOCK， 并 且 请 求 的 数量 比 PIPE_BUF 大 时 ， 才 会 发 生 局 部 写 。 
表 6-2 是 关于 read 的 。 
表 6-2 读 取 管道 
O_NONBLOCK? 无 立即 可 读 的 部 分 或 所 有 立即 可 读 的 (>=1 和 < 总 数 ) 


清除 | 除非 没有 写 操作 ， 否 则 阻塞 (返回 0) 不 阻塞 ;可 能 部 分 读 
设置 除非 没有 写 操作 ， 否 则 为 EAGAIN (返回 0) 不 阻塞 ; 可 能 部 分 读 
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注意 ，read 表 比 write 表 要 简单 得 多 ， 因 为 从 来 不 用 去 确保 原子 读 或 完全 读 。read 工 
作 过 程 如 下 : 

。 如 果 关闭 了 所 有 的 写 文件 描述 符 ， 那 么 对 空 管道 的 read 将 总 是 立刻 返回 9，， 大 多 数 程序 
都 把 它 当 作文 件 结束 。 

。 如 果 写 文件 描述 符 是 打开 的 ， 那 么 不 管 是 否 设置 了 0_NONBLOCK， 空 管道 的 read 都 会 
阻塞 。 

。 对 非 空 管道 的 read 总 是 立刻 返回 ， 无 论 在 管道 中 请 求 读 的 数量 和 管道 中 数据 数量 的 关 
系 如 何 。 返 回 的 是 实际 读 取 的 数量 。 

。 因 为 没有 原子 操作 的 保证 ， 所 以 决 不 能 允许 多 个 读 进程 同时 进行 ， 除 非 有 其 他 的 并 发 控 
制 机 制 (例如 ， 进 程 间 信 号 量 ) 阻止 同时 发 生 的 读 操作 。( 实 践 中 很 少 这 么 做 一 一 可 以 
使 用 一 些 像 消 息 队 列 这 样 的 东西 代替 ) 

此 外 还 有 一 些 需要 记 住 的 原则 : 

。 如 果 有 一 个 读 进程 和 一 个 写 进程 (例如 ， 一 个 shell 管 道 )， 而 且 读 进程 为 局 部 读 取 做 好 
了 准备 (例如 ， 使 用 标准 C 的 1/0 函 数 )， 那 么 可 以 按 需 求 随意 写 ， 尽 管 多 个 块 大 小 是 最 
有 效率 的 ， 如 2.12 节 中 介绍 的 。 

。 如 果 有 多 个 写 进程 (和 一 个 读 进 程 )， 那 么 始终 可 以 写 PIPE_BUF 或 更 少 的 字 节 。 实 践 
中 无 法 使 管道 正确 地 处 理 更 大 数量 的 字 节 ， 除 非 使 用 另 一 种 同步 机 制 ， 如 信号 量 ( 见 
7.8 节 )。 

。 除 了 至 少 512 字 节 外 ， 不 要 随意 假定 PIPE_BUF 的 值 。 如 果真 的 需要 知道 它 的 值 ， 那 么 
可 以 使 用 fpathconf。 

。 即 使 标准 没有 要 求 原子 读 ， 但 如 果 请 求 的 数量 是 PIPE_BUF 或 更 少 ， 那 么 所 有 的 实现 本 
质 上 也 都 要 使 其 成 为 原子 的 。 这 样 用 实际 上 在 于 你 所 冒 的 风险 。 

* 记 住 ， 为 了 得 到 文件 结束 符 (从 read 返 回 0)， 所 有 写 文件 描述 符 (包括 正在 进行 读 操 
作 的 进程 中 所 拥有 的 ) 都 必须 关闭 。 在 后 面 说 明 如 何 用 管道 连接 两 个 进程 时 ， 这 一 点 会 
更 清晰 。 





6.2.3 管道 示例 


(再 一 次 申明 ， 现 在 只 讨论 未 命名 管道 ; FIFO 的 例子 在 下 一 章 介绍 , ) 
仅 考虑 单个 进程 时 管道 的 用 途 是 什么 呢 ? 没 用 ， 但 像 这 样 的 例子 提供 的 信息 是 很 多 的 : 


void pipetest (void) 
{ 
int pfd(21; 
ssize_t nread; 
char s(100]; 


ec_negl( pipe(pfd) ) 
ec_negl( write(pfd(1], "hello", 6) ) 
ec_negl( nread = read(pfd[0], s, sizeof(s)) ) 
if (nread == 0) 
printf (*EOF\n"); 
else 
printf ("read %1d bytes: %s\n", (long)nread, s); 
return; 


EC_CLEANUP_BGN 
EC_FLUSH(“*pipetest") ; 
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EC_CLEANUP_END 
} 


输出 如 下 : 


read 6 bytes: hello 


可 以 安全 地 向 管道 中 写 人 6 个 字 节 而 不 用 担心 会 填 满 ， 因 为 它 低 于 512 (PIPE_BUF 的 最 
小 值 )。 但 是 如 果 写 得 太 多 ， 而 且 确 实 填 满 了 管道 ， 那 么 write 会 阻塞 ， 直 到 read 将 管道 腾 
出 来 一 些 。 然 而 ， 这 是 决 不 可 能 发 生 的 ， 因 为 程序 决 不 会 得 到 read。 此 时 可 能 会 处 于 一 种 叫 
作 死 锁 (deadlock) 的 状况 。 当 使 用 管道 时 ， 必 须 小 心 以 避免 死 锁 ， 但 也 不 必 过 分 地 关注 它 : 
当 通过 用 于 单 向 通信 (如 shell 所 做 的 那样 ) 的 单个 管道 连接 进程 时 ， 死 锁 (应 归于 管道 ) 是 
不 可 能 发 生 的 。 只 有 更 奇特 的 安排 才 会 引起 死 锁 。 

假设 现在 有 两 个 进程 ， 怎 样 连接 它们 ， 才 能 使 一 个 进程 能 从 另 一 个 进程 写 入 的 管道 中 读 
HUE? 这 是 不 可 能 实现 的 。 一 旦 创建 了 进程 ， 就 不 能 连接 它们 了 ， 因 为 对 于 创建 管道 的 进程 
来 说 ,无 法 向 另 一 个 进程 传递 文件 描述 符 。9 当然 可 以 传递 文件 描述 符 编号 ， 但 该 编号 在 另 

-个 进程 中 是 无 效 的 。 如 果 在 创建 另 一 个 进程 之 前 ， 在 一 个 进程 中 建立 了 一 个 管道 ， 那 么 另 
一 个 进程 将 继承 管道 的 文件 描述 符 ， 而 且 在 两 个 进程 中 它们 都 是 有 效 的 。 因 此 ， 通 过 管道 通 
信 的 两 个 进程 可 以 是 父子 ， 或 者 两 个 都 是 子 进程 ， 或 者 祖 孙 关系 等 等 。 无 论 如 何 ， 它 们 必须 
是 相关 的 ， 而 且 管道 必须 在 建立 时 被 传递 。 实 践 中 ， 这 可 能 是 一 个 严格 的 限制 ， 因 为 只 要 进 
程 消 失 ， 就 无 法 重新 建立 ， 而 且 也 无 法 再 重新 把 它 连接 到 它 的 管道 上 一 一 存活 着 的 进程 也 必 
须要 被 删除 ， 然 后 必须 重建 整个 进程 家 族 。 

在 下 面 的 例子 中 ， 一 个 进程 (运行 函数 pipewrite) 生成 一 个 管道 ， 创 建 一 个 继承 它 的 
子 进程 (运行 piperead)， 然 后 向 管道 中 写 入 一 些 数据 以 便 让 子 进程 读 取 。 尽 管子 进程 已 经 
继承 了 必要 的 读 文件 描述 符 ， 但 仍然 不 知道 它 对 应 的 编号 ， 所 以 该 编号 必须 作为 参数 传递 。 


void pipewrite(void) 
{ 
int pfd[2]; 
char fdstr(10]; 


ec_negl( pipe(pfd) ) 
switch (fork()) { 
case -1: 
EC_FAIL 
case 0: /* child */ 
ec_negl( close(pfda{i])) 
snprintf(fdstr, sizeof(fdstr), "td", pfd[0]); 
execlp("./piperead", "piperead", fdstr, (char * ) NULL); 
EC_FAIL 
default: /* parent */ 
ec_negl( close(pfd{0]) ) 
ec_negi( write(pfd[{1], "hello", 6) ) 
} 


return; 


EC_CLEANUP_BGN 
EC_FLUSH("pipewrite"); 

EC_CLEANUP_END 

a 


O 一 些 系统 采用 了 一 种 不 太 方便 的 方式 来 达到 这 个 目的 。 
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下 面 是 子 进程 的 代码 : 


int main(int argc, char *argv[]) 
{ 

int fd; 

ssize_t nread; 

char [100]; 


fd = atoi(argv(1]); 
printf ("reading file descriptor #d\n", fd); 
ec_negi( nread = read(fd, s, sizeof(s)) ) 
if (nread == 0) 

printf (*EOF\n"); 
else 

printf ("read 1d bytes: %s\n", (long)nread, s); 
exit (EXIT_SUCCESS) ; 


EC_CLEANUP_BGN 

exit (EXIT_FAILURE) ; 
EC_CLEANUP_END 
} 


下 面 是 输出 : 


reading file descriptor 3 
read 6 bytes: hello 


一 些 关 于 该 例子 的 解释 如 下 : 

“因为 该 子 进程 只 是 读 管道 ， 而 不 是 写 管道 ， 所 以 为 了 保存 文件 描述 符 ， 立 刻 (在 父 进程 
的 case 0 语句 后 ) 关闭 了 写 结尾 (pfd[ 1 ] )。( 如 果 该 子 进程 需要 读 取 更 多 ， 那 么 关闭 
写 结尾 将 是 极其 重要 的 ， 否 则 子 进程 将 无 法 获得 文件 的 结尾 。) 

"管道 的 读 结尾 对 父 进 程 没有 任何 用 处 ， 所 以 父 进 程 关闭 了 pdf[01]。 

"snprintf 把 读 文件 描述 符 从 一 个 整 型 转换 成 一 个 字符 串 ， 以 便 能 够 作为 程序 参数 使 用 。 

“因为 知道 该 子 程序 在 当前 的 目录 中 ， 所 以 将 它 的 路 径 编写 为 . /pread 以 避免 execlp 查 
找 。 这 会 节省 时 间 ， 但 更 重要 的 是 ， 它 反而 会 阻止 其 他 一 些 piperead 的 意外 执行 (而 
不 必 告 知 在 用 户 的 路 径 中 可 能 有 什么 )。 也 可 以 使 用 exec1l 完 成 同样 的 事情 ，execl 不 
会 查找 。 

* 不 需要 为 该 子 进程 编写 wait 代 码 ， 因 为 在 这 个 例子 中 ， 父 进程 会 马上 退出 。 

"该 子 进程 运行 Piperead， 把 子 进程 的 参数 转换 回 整数 ， 并 且 从 文件 描述 符 中 读 取 。 
( 记 住 ， 要 知道 那个 整数 不 能 使 文件 描述 符 有 效 一 一 即 文件 描述 符 本 身 是 有 效 的 ， 因 为 
它 是 继承 的 。) 

通常 情况 下 ， 下 面 是 用 管道 连接 两 个 进程 进行 单 向 通信 的 方法 : 

1) 创建 管道 。 

2) 派生 创建 读 子 进程 。 

3) 在 子 进程 中 ， 关 闭 管道 的 写 结尾 ， 并 做 好 所 有 需要 的 准备 。( 在 接 下 来 的 例子 中 将 会 看 


到 这 些 准备 工作 。) 


4) 在 子 进程 中 ， 执 行 该 子 进程 的 程序 。 

5) 在 父 进程 中 ， 关 闭 管道 的 读 结尾 。 

6) 如 果 第 二 个 子 进程 需要 写 管道 ， 那 就 创建 它 ， 做 好 必要 的 准备 ， 并 执行 其 程序 。 如 果 
父 进程 准备 写 ， 那 么 直接 写 就 可 以 了 。 

本 书 中 所 有 单 向 管道 的 例子 都 遵循 这 个 范例 。 
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现在 ， 明 白 了 为 什么 fork 和 exec 是 单独 的 系统 调用 了 。 为 了 节约 fork 的 开销 ， 为 什么 
不 用 单个 系统 调用 来 做 这 两 项 工作 呢 ? 因 为 把 它们 两 个 分 开 能 允许 我 们 执行 上 面 的 第 3 步 。 我 
们 已 经 发 现 ， 在 fork 和 exec 之 间 需 要 做 一 些 工作 (关闭 pfd[1])， 而且 随 着 本 章 的 深入 ， 
需要 做 的 工作 会 越 来 越 多 。 在 fork 之 前 不 能 做 这 个 工作 ， 因 为 不 希望 它 影响 父 进程 ( 父 进程 
不 一 定 关 闭 了 管道 的 写 结尾 )。 也 不 希望 子 进程 的 程序 做 这 个 工作 ， 因 为 我 们 希望 程序 不 知道 
它们 是 怎样 被 调用 的 以 及 它们 的 输入 与 输出 怎样 连接 的 (这 是 UNIX 哲 学 的 基础 )。 所 以 一 定 
要 在 非常 恰当 的 地 方 处 理 它 : 在 子 进程 中 执行 从 父 进 程 克隆 来 的 代码 。 另 一 个 额外 的 好 处 是 
连接 代码 被 本 地 化 了 ， 使 得 调试 和 修改 变 得 更 容易 。 

继续 这 个 话题 : 既然 只 有 少量 的 连接 进程 的 典型 方法 ， 那 为 什么 不 使 用 单独 的 带 各 种 选 
项 的 fork-exec 系 统 调用 来 进行 进程 间 连 接 呢 ? 毕竟 存在 其 他 带 许多 选项 的 系统 调用 ， 那 为 
什么 这 里 不 行 呢 ? 原因 仅仅 是 因为 UNIX 的 初始 设计 者 (Thompson 和 Ritchie) 希望 最 小 化 系 
统 调用 的 数目 。fork 和 exec 是 简单 的 ， 而 且 它 们 允许 调用 者 安排 各 种 各 样 的 定制 连接 。 所 
以 何必 再 组 装 另 一 个 系统 调用 呢 ?9 

程序 piperead 是 专门 为 通过 传人 的 文件 符 编号 来 读 取 文 件 描述 符 数 据 而 设计 的 。 该 程 
序 很 奇怪 一 一 标准 的 UNIX 命 令 没 有 那样 做 。 许 多 程序 确实 能 够 读 取 某 个 特定 的 文件 描述 符 ， 
而 且 假定 它们 已 经 打开 ， 但 那个 文件 描述 符 被 固定 在 0 (标准 输入 ，STDIN_FILENO)。 而 且 
并 不 必 作 为 参数 传递 。 类 似 的 ， 许 多 程序 被 设计 成 写 文件 描述 符 1 (标准 输出 ， 
STDOUT_FILENO)。 要 像 shell 那 样 连接 命令 ， 某 种 程度 上 需要 强迫 pipe 在 pfd 数 组 中 返回 
特定 的 文件 描述 符 : 读 结尾 0 和 写 结尾 1。 可 惜 ，pipe 没 有 提供 那样 的 特性 。 为 了 使 它们 可 用 ， 
可 以 在 调用 pipe 前 试 着 关闭 0 和 1， 但 这 样 是 不 安全 的 ， 因 为 标准 并 没有 介绍 pipe 将 使 用 什么 
样 的 文件 描述 符 ， 而 且 ， 进 一 步 说 ， 通 常 并 不 会 仅 为 了 产生 一 个 管道 而 去 牺牲 标准 输入 与 输 
出 。 那 么 怎样 解决 这 个 小 问题 呢 ? 可 以 使 用 daup 或 aup2。 


6.3 dup 和 dup2 系 统 调用 


dup 一 一 复制 文件 描述 符 
#include <unistd.h> 


int dup( 
int fd /* file descriptor to duplicate */ 


3 
/* Returns new file descriptor or -1 on error (sets errno) */ 


dup2 一 一 复制 文件 描述 符 
#include <unistd.h> 
int dup2( 


int fd, /* file descriptor to duplicate */ 
int fd2 /* file descriptor to use */ 


Me 
/* Returns new file descriptor or -1 on error (sets errno) */ 





dup 可 以 复制 一 个 现 有 的 文件 描述 符 ， 返 回 一 个 新 的 、 仍 指向 该 文件 (或 管道 等 ) 的 文 
件 描述 符 。 这 两 个 描述 符 共享 同一 个 文件 描述 ( 见 2.2 节 )， 就 像 一 个 继承 的 文件 描述 符 与 父 
进程 中 的 相应 文件 描述 符 共享 文件 描述 一 样 。 如 果 参 数 是 错 的 (没有 打开 ) 或 没有 文件 描述 


日 但 是 现在 有 了 它 : posix_spawn，5.5 节 对 其 已 经 简单 介绍 过 了 。 
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符 可 用 ， 那 么 该 系统 调用 将 失败 。 

dup 取 编号 最 小 的 可 用 文件 描述 符 作 参 数 ， 所 以 只 要 知道 哪个 是 打开 的 ， 就 可 以 控制 它 
的 返回 值 。 但 使 用 dup2 更 容易 ， 它 允许 使 用 fd2 参 数 指定 文件 描述 符 返 回 什么 。 为 了 使 fd2 
可 用 ， 如 果 必 须 的 话 ，duP2 关 闭 它 。 

dup(fd) 等 价 于 

fentl(fd, F_DUPFD, 0) 

dup2(£d, fd2) 等 价 于 


close (fd2) ; 
fontl(fd, F_DUPFD, fd2); 


只 是 dup2 是 原子 的 一 一 如 果 复 制 有 问题 ， 那 么 不 会 关闭 fd2。 本 书 的 所 有 例子 中 使 用 的 
都 是 dup2， 而 不 是 dup， 因 为 它 更 容易 。 

因为 文件 描述 是 共享 的 ， 所 以 使 用 第 二 个 文件 描述 符 只 有 一 个 好 处 : 它 的 编号 不 同 ， 而 
且 或 许 更 适用 于 调用 者 的 目的 。 假 定 创建 了 一 个 管道 ， 然 后 使 用 dup2 复 制 STDIN_FILENO 
(文件 描述 符 0) 来 生成 该 管道 读 结尾 的 一 个 副本 它 的 文件 描述 符 编号 可 能 是 3、4、27 或 者 
其 他 什么 )。 之 后 ， 如 果 执 行 (exec) 一 个 用 于 读 STDIN_FILENO (有 许多 
STDIN_FILENO! ) 的 程序 ， 那 么 它 可 能 会 被 骗 去 读 管道 。 可 以 使 用 一 个 相似 的 算法 强迫 
STDOUT_FILENO 作 为 管道 写 结尾 。 

如 果 dup2 的 两 个 参数 是 相等 的 ， 那 么 它 将 只 返回 那个 文件 描述 符 而 不 会 关闭 或 复制 任何 
东西 。 例 如 ， 在 管道 读 结尾 不 知 何故 已 经 等 于 STDIN_FILENO 的 情况 下 ， 这 是 有 益 的 。 

为 了 阐明 duPp2 ， 这 里 举 一 个 例子 : 生成 管道 ， 创 建 子 进程 读 取 它 ， 将 子 进程 的 
STDIN_FILENO 作 为 该 管道 的 读 结尾 ， 然 后 调用 cat 命 令 读 取 访 管道。 既然 可 以 使 用 
STDIN_FILENO， 就 不 用 像 上 一 节 中 的 例子 那样 ， 使 用 类 似 piperead 的 专门 程序 了 。 


void pipewrite2(void) /* has a bug */ 
$ 

int pféd(2]; 

pid_t pid; 


ec_negl( pipe(pfd) ) 

switch (pid = fork()) { 

case -1: 
EC_FAIL 

case 0: /* child */ 
ec_negl( dup2(pfd[0], STDIN_FILENO) ) 
ec_negl( close(pfd(0})) 
ec_negl( close(pfd{i})) 
execlp("cat", "cat", (char * ) NULL); 
EC_FAIL 

default: /* parent */ 
ec_negl( close(pfa(0]) ) 
ec_negl( write(pfd{1], "hello", 6) ) 
ec_negl( waitpid(pid, NULL, 0) ) 

} 


return; 


EC_CLEANUP_BGN 
EC_FLUSH ("pipewrite2"); 

EC_CLEANUP_END 

} 
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得 到 的 输出 并 不 令 人 吃惊 : 

hello 

注意 ,在 子 进程 中 ,复制 了 从 pipe 中 得 到 的 那 两 个 文件 描述 符 之 一 后 ， 就 关闭 了 它们 。 
管道 的 读 结尾 仍 是 打开 的 ， 但 现在 其 文件 描述 符 是 STDIN_FILENO。 父 进程 关闭 Jpfd[ 0] 
( 读 结尾 )， 因 为 其 并 不 需要 它 。 调 用 waitpid 等 待 cat 终 止 ， 在 前 一 节 的 piperead 例 子 中 


省 略 了 它 。 
不 幸 的 是 ， 在 显示 了 “hello” 之 后 ,程序 便 挂 起 了 ， 并 且 直 到 用 Ctrl-c 终 止 它 时 ， 它 都 


没有 显示 shell 提 示 。 能 明白 这 是 为 什么 吗 ? 

因为 只 有 在 cat 获 得 文件 结尾 后 ， 才 会 停止 读数 据 ， 但 (在 这 个 例子 中 ) 因为 它 并 没有 
获得 文件 结尾 ， 所 以 并 不 会 终止 ， 因 此 程序 挂 起 。 回 顾 可 知 ， 只 有 当 所 有 的 对 管道 打开 的 写 
文件 描述 符 都 是 关闭 的 ，reaad 才 会 返回 9。 但 在 调用 waitpid 时 ，pfd[1] 仍 然 是 打开 的 ， 
因此 父 进程 与 子 进程 被 死 锁 。 这 个 问题 的 解决 方法 是 在 写 人 数据 之 后 关闭 写 结尾 : 


default: /* parent */ 
ec_negl( close(pfd[0]) ) 
ec_negl( write(pfd(1], "hello", 6) ) 
ec_negl( close(pfd[1}) ) 
ec_negl( waitpid(pid, NULL, 0) ) 


我 们 不 必 局 限于 从 父 进程 到 子 进 程 的 管道 传输 。 接 下 来 的 例子 实现 了 shell 命 令 行 的 等 价 
功能 : 

$ who | we 
来 查看 有 多 少 用 户 登 录 了 。 


void who_wc (void) 
{ 
int pfd[2]; 
pid_t pidl, pid2; 


ec_negl( pipe(pfd) ) 
switch (pidl = fork()) ( 
case -1: 
EC_FAIL 
case 0: /* first child */ 
ec_neg1( dup2(pfd[1], STDOUT_FILENO) ) 
ec_negi( close(pfd(0})) 
ec_negi( close(pfa{1])) 
execlp("who", "who",(char * ) NULL); 
EC_FAIL 
) 
/* parent */ 
switch (pid2 = fork()) { 
case -1: 
EC_FAIL 
case 0: /* second child */ 
ec_negl( dup2(pfd[{0], STDIN_FILENO) ) 
ec_negl( close(pfd{0))) 
ec_negl( close(pfd{1])) 
execlp(*we", "wc", *-1"(char* ) NULL); 
EC_FAIL 
) 
/* still the parent */ 
ec_negl( close(pfd{0}) ) 
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ec_negl( close(pfd{1]) ) 
ec_negl( waitpid(pidl, NULL, 0) ) 
ec_negl( waitpid(pid2, NULL, 0) ) 
return; 


EC_CLEANUP_BGN 
EC_FLUSH ( *who_we") ; 

EC_CLEANUP_END 

J 


下 面 是 输出 : 

1 

取代 who 和 wc 都 是 同一 个 父 进程 的 子 进程 的 做 法 ， 可 以 让 wc 成 为 who 的 子 进程 ， 这 样 做 
正好 容易 创建 : 


void who_we2 (void) 
t 
int pfa[2]; 
pid_t pidi, pid2; 


ec_negl( pipe(pfd) ) 
switch (pidl = fork()) ( 
case -1: 

EC_FAIL 


case 0: /* child */ 
switch (pid2 = fork()) { 
case -1: 
EC_FAIL 
case 0: /* grandchild */ 
ec_negl( dup2(pfd(0], STDIN_FILENO) ) 
ec_negi( close(pfd(0})) 
ec_negl( close(pfd[1])) 
execlp("we", "wo", *-1", (char * ) NULL); 
EC_FAIL 
) 
/* still the child */ 
ec_negl( dup2(pfd[1], STDOUT_FILENO) ) 
ec_negl( close(pfd{0})) 
ec_negl( close (pfa{i})) 
execlp("who", "who", (char * ) NULL); 
EC_FAIL 
} 
/* parent */ 
ec_negl( close(pfd(0]) ) 
ec_negl( close(pfd{1]) ) 
ec_negl( waitpid(pidl, NULL, 0) ) 
return; 


EC_CLEANUP_BGN 
EC_FLUSH ("who_we2") ; 

EC_CLEANUP_END 

) 


关于 这 个 例子 的 两 点 解释 : 
* 在 关闭 读 文件 描述 符 之 前 ， 子 进程 必须 创建 孙 进程 ， 以 便 孙 进程 可 以 继承 它 。 
。 父 进程 只 等 待 who(Pidl ) 来 终止 。 它 不 能 等 待 we ， 因 为 wc 不 是 它 的 子 进程 。 运 行 who 的 
子 进程 也 不 能 等 待 wc， 因 为 who 程 序 没有 设计 用 来 那样 做 。 在 exec wc 调用 之 后 放置 一 
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个 waitpid 调 用 是 没有 作用 的 ， 因 为 当成 功 执行 exec 时 会 覆盖 所 有 代码 。 所 要 发 生 的 
(如 5.8 节 解释 的 ) 是 当 who (wc 的 父 进程 ) 终止 时 ， 系 统 进程 将 继承 wc， 并 且 等 待 它 。 
可 以 很 容易 地 苏 倒 这 个 过 程 ， 即 让 wc 成 为 vho 的 父 进程 ( 见 练习 6.11)。 

当然 ， 像 这 样 使 用 shell 建 立 命令 行 比 编写 定制 程序 更 加 容易 。 下 一 节 中 将 编写 这 样 的 shell。 


6.4 一 个 真正 的 shell 


本 节 编 写 的 shell 是 你 可 能 使 用 过 的 典型 UNIX shell 的 子 集 。 它 有 这 些 特点 : 
。 简 单 命令 包含 命令 名 ， 其 后 跟 有 用 空格 或 tab 分 隔 开 的 可 选 参 数 序列 ， 每 个 参数 都 是 一 
个 用 双 引 号 (") 括 起 来 的 单个 词 或 字符 串 。 如 果 被 引号 引起 来 ， 这 个 参数 可 以 包含 任 


何其 他 特殊 字符 ( | 、;、&、>、<、 空 格 、tab 和 新 行 字符 )。 一 个 被 包含 的 引号 或 反 
斜 线 的 前 面 必 须 带 有 反 斜 线 (\" 或 \\ )。 每 个 命令 至 多 可 以 有 50 个 参数 ， 每 一 个 参数 至 
多 可 以 有 500 个 字符 。 


“通过 在 文件 名 前 放置 <， 可 以 把 一 个 简单 命令 的 标准 输入 重 定向 到 它 来 自 的 文件 。 同 样 ， 
通过 > 可 以 重 定向 标准 输出 ， 这 时 输出 截 短 了 输出 文件 。 如 果 输 出 重 定 向 的 符号 是 >>， 
那么 输出 会 被 追加 到 输出 文件 上 。 如 果 输 出 文件 不 存在 ， 则 会 创建 它 。 

。 管 道 由 用 “| ”分 割 的 一 个 或 多 个 简单 命令 序列 构成 。 除 了 最 后 一 个 简单 命令 外 ， 管 道 
中 的 每 个 命令 都 有 自己 的 标准 输出 ， 并 通过 管道 连接 到 右 侧 邻 居 的 标准 输入 。 

。 管 道 通 过 新 行 字符 、 分 号 (; ) 或 者 and 号 (&) 而 终止 ， 对 于 前 两 种 符号 ，shell 继 续 之 
前 先 等 待 最 右边 的 简单 命令 终止 。 它 报告 管道 中 每 个 简单 命令 的 进程 数 ， 每 个 简单 命令 
运行 时 忽略 中 断 和 退出 信号 。 

* 内 置 命令 有 赋值 、set 和 cd。5.4 节 讲述 了 前 两 个 命令 ，cd 以 熟悉 的 方式 运行 。 

第 一 步 是 将 输入 行 分 解 为 标记 ， 这 些 标记 是 形成 语法 单元 的 符号 组 ; 例如 是 单字 、 引 用 

字符 、 和 像 5 和 >> 等 一 样 的 特殊 符号 。 每 个 标记 由 如 下 的 一 个 符号 常量 表示 : 

T_WORD ”参数 或 文件 名 。 如 果 被 引号 引起 来 了 ， 在 标记 被 识别 之 后 ， 引 号 便 被 清除 。 


T_BAR ”符号 |。 
T_AMP 符号 &。 
T_SEMI ”符号 ;。 
T_GT 符号 >。 
T_GTGT ”符号 >>。 
T_LT 符号 <。 
T_NL 新 行 。 


T_EOF 专门 标识 已 经 到 达 了 文件 结尾 的 标记 。 如 果 标准 输出 是 一 个 终端 ， 那 么 用 户 
已 经 输入 了 EOT (Ctrl-d)。 

T_ERROR 标识 错误 的 特殊 标记 。 

词汇 分 析 器 (lexical analyzer) 的 任务 是 读 输入 并 将 字符 装配 成 标记 。 每 一 次 调用 它 ， 都 
会 返回 一 个 标记 。 如 果 返 回 的 标记 是 ?_WORD ， 那 么 也 将 返回 包含 构成 其 实际 字符 的 字符 串 。 
(对 于 其 他 的 标记 而 言 ， 实 际 字符 是 明显 的 . ) 词汇 分 析 器 应 该 绕 过 那些 不 相关 的 字符 〈 如 分 
隔 参 数 的 空格 ) 不 返回 任何 内 容 。® 





日 大 多 数 UNIX 系 统 都 包括 一 个 叫做 lex 的 命令 ， 该 命令 能 自动 地 从 将 要 识别 标记 的 描述 中 产生 一 个 词汇 分 析 
器 。 因 为 lex 使 用 起 来 很 复杂 ， 而 且 其 产生 的 词汇 分 析 器 有 时 大 而 且慢 ， 通 常情 况 下 最 好 手动 编写 词汇 分 


析 和 器。 程序 写 起 来 并 不 难 。 
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这 里 的 词汇 分 析 器 是 一 个 有 限 状 态 机 : 当 字 符 被 读 取 时 ， 它 们 要 么 被 立刻 识别 为 标记 ， 
要 么 被 积聚 起 来 〈 例 如， 一 个 词 的 字符 )。 对 每 个 字符 ， 词 汇 分 析 器 都 会 转换 到 一 个 新 状态 ， 
该 状态 下 能 够 记录 它 正在 做 什么 和 怎样 解释 字符 。 例 如 ， 当 积聚 引号 里 字符 串 时 ， 此 时 对 待 
空格 的 方式 与 引号 外 的 空格 有 所 不 同 。 本 节 的 shell， 需 要 四 种 状态 : 

NEUTRAL ”每 个 调用 词汇 分 析 器 的 初始 状态 。 忽 略 空 格 和 tab。 字 符 | 、&、; 、< 和 换行 
字符 会 被 立刻 识别 成 标记 。 符 号 > 可 以 把 状态 转换 为 GTGT， 这 也 要 看 它 后 面 是 否 还 有 一 个 > 符 
号 ， 因 为 > 和 >> 是 两 个 不 同 的 标记 。 引 号 可 以 把 状态 转换 成 聚集 引号 内 字符 串 的 INQUOTE。 其 
他 所 有 的 字符 都 被 当 作 非 引用 词 的 开始 ; 字符 被 保存 在 缓冲 区 中 ， 并 且 状 态 转 换 为 INWORD。 

GTGT ”这 个 状态 表示 刚刚 读 取 了 >。 如 果 下 一 个 字符 也 是 >， 那 么 将 返回 T_GTGT 标 记 。 
和 否则， 返回 T_GT。 但 首先 是 已 经 读 取 了 太 多 次 同一 字符 ， 所 以 用 标准 C 函 数 ungetc 将 它 放 


回 到 输入 中 。 
INQUOTE ”这 个 状态 表示 读 取 了 一 个 左 引号 。 累 积 字符 到 一 个 缓冲 区 直到 读 取 到 右 引 号 。 


然后 返回 7_WORD 标 记 和 累积 字符 串 ， 必 须 采 取 专门 的 操作 处 理 退出 字符 \。 

INWORD ”这 个 状态 表示 读 取 了 字 的 第 一 个 字符 ， 并 且 已 经 将 它 放 到 了 缓冲 区 中 。 不 断 地 
累积 字符 ， 直 到 读 取 到 一 个 非 字 的 字符 (比如 ，| )。 不 用 处 理 的 字符 放 回 到 输出 ， 并 返回 
T_WORD 标 记 。 

通过 这 个 解释 ， 应 该 可 以 理解 词汇 分 析 器 一 -gettoken 的 代码 了 : 


typedef enum {T_WORD, T_BAR, T_AMP, T_SEMI, T_GT, T_GTGT, T_LT, 
T_NL, T_EOF, T_ERROR} TOKEN; 


static TOKEN gettoken(char *word, size_t maxword) 

{ 
enum (NEUTRAL, GTGT, INQUOTE, INWORD) state = NEUTRAL; 
int c; 
size_t wordn = 0; 


while ((c = getchar()) != EOF) ( 
switch (state) { 
case NEUTRAL: 
switch (c) ( 
case ';': 
return T_SEMI; 
case '&': 
return T_AMP; 
case '|': 
return T_BAR; 
case ‘<': 
return T_LT; 
case ‘\n': 
return T_NL; 
case ' 
case ‘\t': 
continue; 
case '>': 
state = GTGT; 
continue; 


case '"': 
state = INQUOTE; 
continue; 
default: 
state = INWORD; 
ec_false( store_char(word, maxword, C, &wordn) ) 
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continue; 
? 
case GTGT: 
if (c >) 





return T_GTGT; 
ungetc(c, stdin); 
return T_GT; 
case INQUOTE: 
switch (c) { 


case ‘\\': 
if ((c = getchar()) == EOF) 
ca NN: 
ec_false( store_char(word, maxword, c, &wordn) ); 
continue; 
case '"': 


ec_false( store_char(word, maxword, '\0', &wordn) ) 
return T_WORD; 
default: 
ec_false( store_char(word, maxword, c, &wordn) ) 
continue; 
) 
case INWORD: 
switch (c) { 
case 
case 
case 
case 
case 
case ' 
case 
case '\t 
ungetc(c, stdin); 
ec_false( store_char(word, maxword, '\0', &wordn) ) 
return T_WORD; 
default: 
ec_false( store_char(word, maxword, c, &wordn) ) 
continue; 





} 
} 
ec_false( !ferror(stdin) ) 


return T_EOF; 


EC_CLEANUP_BGN 
return T_ERROR; 

EC_CLEANUP_END 

} 


static bool store_char(char *word, size_t maxword, int c, size_t *np) 
{ 

errno = E2BIG; 

ec_false( *np < maxword ) 

word[(*np)++] = c; 

return true; 


EC_CLEANUP_BGN 
return false; 

EC_CLEANUP_END 

} 


当 编写 一 个 大 程序 时 ， 分 片 进行 调试 是 很 方便 的 。 这 不 仅 能 早 一 点 儿 提供 反馈 ， 而 且 也 
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容易 寻找 漏洞 ， 因 为 只 需要 查找 少量 几 行 代 码 。 下 面 是 个 gettoken 的 测试 程序 : 


int main(void) 
í 
char word[200]; 


while (1) 
switch (gettoken(word, sizeof(word))) ( 
case T_WORD: 
printf (*T_WORD <ts>\n", word); 
break; 
case T_BAR: 
printf (*T_BAR\n*); 
break; 
case T_AMP: 
printf ("T_AMP\n"); 
break; 
case T_SEMI: 
printf ("T_SEMI\n"); 
break; 
case T_GT: 
print£(*T_GT\n"); 
break; 
case T_GTGT: 
printf (*T_GTGT\n"); 
break; 
case TLL 
printé£(*T_LT\n"); 
break; 


case T_NL: 
printf (*T_NL\n"); 
break; 

case T_EOF: 
printf (*T_EOF\n"); 
exit (EXIT_SUCCESS) ; 

case T_ERROR: 
printf (*T_ERROR\n*); 
exit (EXIT_SUCCESS) ; 





) 
当 运行 这 个 程序 ， 并 输入 下 面 这 行 代码 时 (后面 跟 有 EOT ): 


sort <inf | pr -h "Sept. Results* >>outf& 


可 以 得 到 如 下 输出 : 
T_WORD <sort> 
T_WORD <inf> 
T_WORD <pr> 
T_WORD <-h> 
T_WORD <Sept. Results> 


T_WORD <outf> 


这 个 测试 不 能 证 明 gettoken 是 正确 的 ， 但 对 继续 这 个 shell 而 言 是 足够 让 人 鼓舞 的 。 
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下 一 步 是 编写 一 个 用 于 处 理 简单 命令 的 函数 ， 该 命令 是 以 | 、s、; 或 换行 字符 来 终止 的 。 
这 里 称 这 个 函数 为 command。 简 单 地 将 参数 放 入 argv 数 组 以 便 以 后 调用 execvp 使 用 。 标 准 
输入 有 三 种 可 能 : 默认 (STDIN_FILENO)、 文 件 ( 如 果 < 存 在 ) 或 管道 的 读 结尾 (如 果 简 单 
命令 之 前 有 | )。 标 准 输出 有 四 种 可 能 : 默认 (STDOUT_FILENO)、 被 创建 的 或 被 截 短 的 文件 
(如 果 > 存 在 )、 被 创建 的 或 被 追加 的 文件 (如果 >> 存 在 )， 或 管道 的 写 结尾 (如果 简 单 命令 之 
后 跟 有 | )。 从 gettoken 接 收 的 标记 会 通知 我 们 获得 的 是 哪 种 情况 。 

当 command 处 理 这 些 标记 时 ， 使 用 这 些 变量 来 记录 简单 命令 的 标准 输入 与 标准 输出 : 

srcfd 源 文件 描述 符 ， 初 始 时 为 SrTDIN_PFILENO。 如 果 用 < 给 输入 重 定 向 ， 那 么 
srcfd 将 被 设置 成 -1， 并 且 srcfile 会 记录 该 文件 名 。 如 果 输 入 是 管道 ， 那 么 srcfd 会 被 设 
置 成 文件 描述 符 编 号 而 不 是 STDIN_FILENO。 

srcfile 源 文件 ， 只 有 当 简单 命令 包含 有 < 时 有 用 。 

dstfd 目的 文件 描述 符 ， 初 始 时 为 STDOUT_FILENO。 如 果 用 > 或 >> 给 输出 重 定向 ， 那 
么 该 变量 将 被 设置 为 -1 且 由 dstfile 记 录 该 文件 名 。 和 srcfd 一 样 ， 如 果 输 出 是 管道 ， 那 么 
它 将 被 设置 为 文件 描述 符 而 不 是 STDOUT_FILENO。 

dstfile 输出 文件 ， 仅 当 简单 命令 包含 > 或 >> 时 有 用 。 

append 仅 当 用 >> 重 定向 输出 时 这 个 布尔 变量 才 会 被 设置 为 true。 

makepipe 这 是 command 的 一 个 参数 。 如 果 为 true， 则 调用 者 请 求 command 生 成 一 个 
管道 ， 使 用 读 结尾 作为 标准 输入 ， 并 把 该 文件 描述 符 作 为 写 结尾 递 回 给 调用 者 ， 调 用 者 用 它 
作为 标准 输出 。 稍 后 将 解释 这 个 方案 。 

command 仔 细 检 查 标记 时 ,也 核查 逻辑 错误 : < 或 > 的 两 次 出 现 ; 当 用 | 终止 简单 命令 时 ， 
出 现 >; 当 简 单 命令 前 面 有 | 时 ， 出 现 <， 等 等 。 有 趣 的 是 ， 典 型 的 UNIX shell 并 不 去 核查 这 些 
异常 ， 实 际 上 可 以 运行 如 下 的 命令 : 

$ who >outf | we 

函数 command 会 返回 终止 管道 的 标记 ， 因 为 终止 符 的 类 型 影响 后 续 的 处 理 : 如 果 终 止 符 
是 &， 那 么 就 不 用 等 待 最 右边 的 简单 命令 ， 且 管道 中 的 所 有 简单 命令 运行 时 都 会 忽略 中 断 信号 
和 退出 信号 。 如 果 要 等 待 最 右边 的 简单 命令 ， 那 么 也 必须 通过 wpid 参 数 返 回 其 进程 ID。 如 果 
终止 符 是 一 个 新 行 字符 ， 则 是 新 命令 的 提示 。 

关于 command 最 微妙 的 地 方 是 ， 当 简单 命令 跟 有 | 时 ， 它 会 递归 调用 它 自 己 。 直 到 碰 到 其 
他 的 终止 符 〈; 、8s 或 新 行 字符 ) 时 ， 递 归 调用 才 会 停止 。 每 个 递归 调用 实际 上 都 负责 生成 管道 
(用 pipe 系 统 调用 )， 因 此 其 参数 makepipe 都 被 设置 成 了 true。 写 管道 文件 描述 符 会 被 传递 
回来 (通过 另 一 个 参数 ，pipefdp)。 直 到 递归 调用 返回 后 ， 才 实际 调用 简单 命令 (用 函数 
invoke)， 因 为 直到 管道 的 写 结尾 可 用 时 ， 才 能 调用 它 。 同 样 ， 和 上 面 的 情况 一 样 ， 在 调用 任 
意 一 个 组 成 简单 命令 的 要 素 之 前 ， 必 须知 道 管道 终止 符 ， 以 便 使 invoke 知 道 如 何 处 理 信号 。 
从 左 向 右 处 理 管道 而 从 右 向 左 调用 简单 命令 。 把 makepipe 设 置 为 False， 调 用 command 
处 理 最 左边 的 简单 命令 ， 然 后 ， 把 makepipe 设 置 为 true， 递 归 调用 command 处 理 其 他 的 简 
单 命令 。 当 命令 调用 栈 返 回 时 ， 就 调用 简单 命令 -一 此 时 所 有 需要 的 信息 就 都 可 用 了 。 

下 面 是 command 的 代码 ， 该 代码 值得 仔细 研究 - 








#define MAXARG 50 /* max args in command */ 
#define MAXFNAME 500 /* max chars in file name */ 
#define MAXWORD 500 /* max chars in arg */ 


static TOKEN command(pid_t *wpid, bool makepipe, int *pipefdp) 
{ 
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TOKEN token, term; 





int argc, srcfd, dstfd, pid, pfd(2] = -1); 
char *argv[MAXARG], srcfile[MAXFNAME] = "", dstfile(MAXFNAME] = 
char word [MAXWORD] ; 

bool append; 

argc = 0 


srcfd = STDIN_FILENO; 
dstfd = STDOUT_FILENO; 
while (true) { 
switch (token = gettoken(word, sizeof (word))) { 
case T_WORD: 
if (argc >= MAXARG - 1) { 
fprintf(stderr, "Too many args\n*); 





continue; 

$ 

if ((argvlarge} = malloc(strlen(word) + 1)) == NULL) ( 
fprintf(stderr, "Out of arg memory\n* 
continue; 


} 

strcpy (argv[argc], word); 

argc++; 

continue; 

T_T: 

if (makepipe) { 
fprintf(stderr, "Extra <\n"); 
break; 





) 
if (gettoken(srcfile, sizeof(srcfile)) != T_WORD) ( 
fprintf(stderr, "Illegal <\n"); 
break; 
) 
srcfd = - 
continue; 
case T_GT: 
case T_GTGT: 
if (dstfd != STDOUT_FILENO) ( 
fprintf(stderr, “Extra > or >>\n"); 
break; 





} 
if (gettoken(dstfile, sizeof (dstfile)) != T_WORD) { 


fprintf (stderr, "Illegal > or >>\n"); 
break; 





) 

dstfd = -1; 

append = token 

continue; 
case T_BAR: 
case T_AM 
case T_SEMI 
case T_NL: 

argv[Iargc] = NULL; 

if (token == T_BAR) { 

if (dstfd != STDOUT_FILENO) { 
fprintf(stderr, *> or >> conflicts with |\n"); 


break; 








} 
term = command(wpid, true, sdstfd); 
if (term == T_ERROR) 

return T_ERROR; 
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} 
else 
term = token; 
if (makepipe) { 
ec_negl( pipe(pfd) ) 
*pipefdp = pfd[1]; 
srcfd = pfd[0]; 
} 
ec_negl( pid = invoke({argc, argv, srcfd, srcfile, dstfd, 
dstfile, append, term == T_AMP, pfd{1]) ) 
if (token != T_BAR) 
*wpid = pid; 
if (argc == 0 && (token != T_NL || srcfd > 1)) 
fprintf(stderr, “Missing command\n"); 
while (--arge >= 0) 
free (argv[argc]); 
return term; 
case T_EOF: 
exit (EXIT_SUCCESS) ; 
case T_ERROR: 
return T_ERROR; 
J 
) 


EC_CLEANUP_BGN 
return T_ERROR; 

EC_CLEANUP_END 

$ 


当 command 遇 到 T_BAR 标 记 时 ， 就 已 经 意识 到 了 需求 管道 ， 为 什么 要 再 次 调用 command 
生成 管道 ， 而 不 是 自己 生成 管道 并 仅 传递 读 文件 描述 符 呢 ? 这 是 为 了 保存 文件 描述 符 。 如 果 
在 递归 调用 command 之 前 而 不 是 之 后 调用 pipe 系 统 调用 ， 那 么 递归 调用 的 每 层 ( 即 每 个 简 
单 命令 ) 都 将 捆绑 两 个 管道 文件 描述 符 ， 直 到 递归 调用 返回 后 才 关 闭 。 在 某 些 系统 上 ， 因 为 
文件 描述 符 是 短缺 的 ， 所 以 管道 的 数目 被 限制 在 比 简单 命令 数目 的 一 半 还 少 一 些 。 如 果 调 用 
者 已 经 要 求生 成 一 个 管道 ， 那 么 通过 要 求 读 进程 生成 管道 ， 可 以 恰 在 调用 invoke (马上 就 会 


讲 到 ) 之 前 调用 piPe， 这 样 就 允许 管道 是 任何 长 度 的 。 
invoke 创 建 的 子 进程 不 需要 管道 的 写 结尾 (pfd{11)， 因 此 它 被 作为 最 后 一 个 参数 传递 


给 invoke， 所 以 在 子 进程 中 可 以 关闭 它 ; 稍 后 会 看 到 这 点 。 
下 面 是 调用 第 一 个 command 的 main 程 序 。 它 模拟 的 是 5.4 节 中 独一无二 的 shell 的 main 程 序 。 


int main(void) 
{ 
pid_t pid; 
TOKEN term = T_NL; 


ignore_sig(); 
while (true) { 
if (term == T_NL) 
printf(*%s", PROMPT); 
term = command(&pid, false, NULL); 


if (term == T_ERROR) { 
fprintf(stderr, *Bad command\n*); 
EC_FLUSH(*main--bad command") 
term = TNL; 

2 

if (term != T_AMP && pid > 0) 


RAGHEB ES 261 





wait_and_display (pid); 
fd_check(); 
) 
} 


调用 ignore_sig 会 使 中 断 信号 和 退出 信号 被 忽略 一 一 当 碰 到 中 断 或 退出 键 时 ， 并 不 是 
想 要 删除 shell。 将 在 9.1.6 节 中 给 出 ignore_sig 的 代码 。 由 command 返 回 的 管道 终止 符 会 告 
知 是 否 需要 等 待 最 右边 的 简单 命令 终止 ( 稍 后 会 看 到 这 个 版 本 的 wait_and_display) 和 
是 否 需要 提示 。 

因为 需要 确认 使 用 重 定向 和 管道 之 后 ， 没 有 忘记 关闭 任何 文件 描述 符 ， 所 以 每 次 处 理 命 
令 时 都 要 调用 fd_check 以 确认 只 有 标准 文件 描述 符 是 打开 的 。( 如 果 需 要 ， 也 可 以 从 这 个 
shell 的 产品 版 本 中 移 去 fd_check。) 只 需要 核查 前 20 个 文件 描述 符 ， 因 为 这 就 足以 揭示 关闭 
失败 的 漏洞 了 : 


static void fd_check(void) 
{ 

int fd; 

bool ok = true; 


for (fa = 3; fd < 20; fd++) 
if (fcntl(fd, F_GETFL) != -1 || errno != EBADF) { 
ok = false; 
fprintf(stderr, **** fd %d is open ***\n", fd); 
} 
if (tok) 
exit (EXIT_FAILURE) ; 
} 


command 调 用 invoke 来 调用 简单 命令 。 它 传递 命令 参数 (argc 和 argv) 和 先前 描述 
的 源 与 目的 变量 (srcfd、srcfile、dstfd、dstfile 和 append)。 倒 数 第 二 个 参数 会 
告诉 invoke 简 单 命令 是 否 准备 在 后 台 运行 。 如 前 所 述 ， 最 后 一 个 参数 是 将 在 子 进 程 中 关闭 的 
文件 描述 符 。 现 在 应 该 熟悉 invoke 使 用 的 fork 和 exec 了 : 
static pid_t invoke(int argc, char *argv[], int srcfd, const char *srcfile, 
int dstfd, const char *dstfile, bool append, bool bckgrnd, int closefd) 


{ 
pid_t pid; 
char *cmdname, *cmdpath; 


if (argc == 0 || builtin(argc, argv, srcfd, dstfd)) 


return 0; 
switch (pid = fork()) { 
case -1: 
fprintf(stderr, "Can't create new process\n*); 
return 0; 
case 0: 
if (closefd != -1) 


ec_negl( close(closefd) ) 
if (1bekgrnd) 

ec_false( entry_sig() ) 
redirect(srcfd, srcfile, dstfd, dstfile, append, bckgrnd); 
cmdname = strchr(argv(0], °/'); 
if (cmdname == NULL) 

cmdname = argv(0]; 
else 

mdname++; 
cmdpath = argv[0]; 
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argv[0] = cmdname; 
execvp(cmdpath, argv); 


fprintf(stderr, "Can't execute %s\n", 


exit (EXIT_FAILURE) ; 


/* parent */ 

if (srcfd > STDOUT_FILENO) 
ec_negl( close(srcfd) ) 

if (dstfd > STDOUT_FILENO) 
ec_negl( close(dstfd) ) 

if (bekgrnd) 
printf("tld\n", (long)pid); 

return pid; 


EC_CLEANUP_BGN 
if (pid == 0) 
exit (EXIT_FAILURE) ; 
return -1; 
EC_CLEANUP_END 
} 


cmdpath); 


因为 既 需 要 保持 完整 的 路 径 (这 个 路 径 可 能 已 经 被 作为 execvp 的 第 一 个 参数 输入 )， 但 
是 又 需要 argv[{01] 仅 指向 文件 名 那 部 分 ， 所 以 造成 了 cmdname 和 cmdpath 之 间 的 混乱 。 

可 以 内 置 被 调用 的 命令 。 如 果 这 样 的 话 ，builtin ( 稍 后 给 出 ) 会 返回 true。 如 果 不 是 
这 样 ， 可 以 创建 一 个 子 进程 运行 简单 命令 。 回 顾 以 前 的 内 容 ， 可 以 知道 已 经 忽略 了 中 断 信号 
和 退出 信号 。 如 果 该 命令 不 在 后 台 运行 ， 那 么 可 以 使 用 entry_sig 调 用 (9.1.6 节 详细 讨论 ) 


把 信号 恢复 到 它们 传人 shell 的 地 方 。 


invoke 调 用 redirect 来 重 定向 IO， 并 且 如 果 需 要 ， 也 可 以 用 来 确保 源 和 目的 被 复制 


成 STDIN_FILENO 和 STDOUT_FILENO。 下 面 是 redirect 的 代码 : 


static void redirect(int srcfd, const char *srcfile, 


const char *dstfile, bool append, bool bckgrnd) 


{ 








int flags; 

if (srcfd == STDIN_FILENO && bekgrnd) ( 
srcfile = "/dev/null"; 
srcfd = -1; 

} 

if (srcfile[0] != '\0') 


ec_negl( srcfd = open(srcfile, O_RDONLY, 0) ) 


ec_negl( dup2(srcfd, STDIN_FILENO) ) 
if (srcfd != STDIN_FILENO) 
ec_negl( close(srcfd) ) 


if (dstfile(0] != '\0') { 
flags = O_WRONLY | O_CREAT; 
if (append) 
flags |= O_APPEND; 
else 


flags |= O_TRUNC; 


ec_negi( dstfd = open(dstfile, flags, PERMFILE) ) 


} 
ec_neg1( dup2(dstfd, STDOUT_FILENO) ) 
if (dstfd != STDOUT_FILENO) 

ec_negl( close(dstfd) ) 
fd_check(); 
return; 


int dstfd, 
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EC_CLEANUP_BGN 
exit (EXIT_FAILURE); /* we are in child */ 
EC_CLEANUP_END 


} 


如 果 后 台 命 令 没 有 把 标准 输入 重 定向 为 来 自 的 文件 或 管道 ， 那 么 可 以 采取 措施 把 它 重 定 
向 到 一 个 特殊 文件 /dev/null， 当 进行 读 操作 时 ， 这 个 文件 会 给 出 当前 的 文件 结尾 。redirect 
的 剩余 部 分 应 该 被 清除 。 

wait_and_display (从 main 调 用 的 ) 是 5.8 节 中 给 出 的 代码 的 扩展 。 它 被 告知 该 等 待 
什么 进程 ， 但 在 等 待 期 间 ， 它 可 能 会 了 解 进程 。 如 果 这 样 ， 它 会 用 display_status 输 出 那 
些 进程 ID 和 终止 原因 的 描述 。 当 被 委托 的 进程 终止 时 ，wait_and_display 将 在 显示 其 状 
态 后 返回 。 下 面 是 它 的 代码 : 


static bool wait_and_display(pid_t pid) 
t 

pid_t wpid; 

int status; 


do { 
ec_negl( wpid = waitpid(-1, &status, 0) ) 
display_status(wpid, status); 

) while (wpid != pid); 

return true; 


EC_CLEANUP_BGN 
return false; 

EC_CLEANUP_END 

} 


最 后 给 出 builtin 的 代码 。 其 大 部 分 内 容 来 自 5.4 节 ， 这 里 添加 了 处 理 cd 命 令 的 代码 。 不 
带 参 数 的 cd 命令 改变 了 HOME 环 境 变量 所 给 路 径 的 目录 。 


static bool builtin(int argc, char *argv[], int srcfd, int dstfd) 


{ 
char *path; 





if (strchr(argv[0], '=') != NULL) 
asg(arge, argv); 
else if (strcmp(argv[0], “set") == 0) 
set(argc, argv); 
else if (stremp(argv[0], "cd") == 0) ( 
if (argc > 1) 
path = argv(1]; 


else if ((path = getenv("HOME")) == NULL) 
path = "."; 
if (chdir(path) == -1) 


fprintf(stderr, "ts: bad directory\n", path); 
} 
else 
return false; 
if (srcfd != STDIN_FILENO || dstfd != STDOUT_FILENO) 
fprintf(stderr, "Illegal redirection or pipeline\n"); 
return true; 
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你 可 能 已 经 观察 到 了 ， 这 里 shell 发 现 的 一 些 错误 被 强大 的 “ec” 工 具 处 理 了 ， 而 其 他 一 
些 错 误 只 产生 了 输出 消息 ， 之 后 shell 继 续 运行 。 这 里 把 “不 可 能 ”的 错误 看 作 是 严重 的 错误 ， 
因为 如 果 它 们 发 生 ， 将 意味 着 操作 系统 受到 了 致命 伤害 。 这 是 一 个 折衷 方 法: 我 们 当然 不 希 
望 忽 略 这 些 错误 ， 因 为 不 可 能 的 事情 也 是 会 发 生 的 ， 但 我 们 并 不 打算 编写 代码 从 某 个 可 能 从 
不 会 发 生 的 情况 中 恢复 。 当 然 ， 有 时 会 猜测 失误 一 一 严重 错误 持续 发 生 ， 因 为 毕竟 它 不 是 不 
可 能 发 生 的 。 那 么 就 必须 修改 代码 以 处 理 不 同 的 错误 。 

这 里 没有 给 出 这 个 shell 的 任何 示例 。 因 为 该 shell 的 性 能 与 我 们 平时 使 用 的 shell 是 相同 的 ， 
所 以 没 必要 给 出 示例 。 


6.5 非 重 定向 管道 的 双向 通信 


现在 远离 shell 中 使 用 的 单 向 管道 通信 的 讨论 ， 转 到 双向 通信 。 典 型 的 shell 没 有 提供 在 进 
程 间 建立 双向 通信 的 符号 。 双 向 管道 是 从 C 程 序 中 建立 的 。 

首先 从 一 个 十 分 简单 的 例子 讲 起 。 在 一 个 程序 中 ， 和 希望 能 够 通过 调用 sort 命 令 来 实现 数 
据 排序 。 当 然 可 以 采用 如 下 的 代码 : 


system("sort <datafile >outfile"); 


然后 ， 可 以 读 取 输 出 文件 的 内 容 以 访问 排 好 的 数据 。 但 这 里 并 不 想 用 那样 的 方式 处 理 ， 
而 是 想 要 用 管道 把 数据 传递 给 sort ， 并 让 sort 把 排序 后 的 数据 通过 管道 传 回来 。 因 为 sort 
可 以 读 写 其 标准 输入 与 标准 输出 它 是 一 个 过 滤 程 序 )， 所 以 应 该 可 以 按 我 们 的 想法 使 用 它 。 
现在 已 经 知道 如 何 强迫 任意 的 文件 描述 符 成 为 进程 的 标准 输入 或 标准 输出 了 。 

如 婴儿 在 学 习 走路 之 前 首先 要 学 会 跌倒 一 样 ， 先 从 不 正确 的 做 法 开始 。 这 样 与 立刻 给 出 
正确 的 解决 方法 相 比 ， 可 以 学 到 更 多 的 关于 如 何 恰当 处 理 它 的 方法 。 

因为 每 个 管道 都 有 一 个 读 结尾 和 一 个 写 结尾 ， 又 因为 两 个 文件 描述 符 都 被 一 个 子 进程 继 
承 了 ， 所 以 可 以 只 使 用 一 个 管道 。sort 可 以 读 取 管道 获得 输入 并 向 其 写 回 ， 以 便 传 回 排序 后 
的 输出 。 父 进程 也 拥有 访问 管道 的 文件 描述 符 。 它 向 管道 中 写 入 没有 排序 的 数据 ， 并 从 管道 
中 读 取 排序 后 的 数据 。 下 面 是 一 个 从 文件 datafile 中 读 取 数 据 的 程序 ， 它 调用 sort 对 读 取 的 数 
据 进行 排序 ; 然后 输出 排序 后 的 数据 


void fsort0(void) /* wrong */ 
{ 

int pfd(2], fd; 

ssize_t nread; 

pid_t pid; 

char buf (512); 


ec_negl( pipe(pfd) ) 
ec_negl( pid = fork() ) 
if (pid == 0) { /* child */ 
ec_negl( dup2(pfd[0], STDIN_FILENO) ) 
ec_negl( close(pfd{0}) ) 
ec_negl( dup2(pfd[1], STDOUT_FILENO) ) 
ec_negl( close(pfa{1]) ) 
execlp("sort", "sort", (char * ) NULL); 
EC_FAIL 
) 
/* parent */ 
ec_negl( fd = open("datafile", O_RDONLY) ) 
while (true) { 
ec_negl( nread = read(fd, buf, sizeof(buf)) ) 
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if (nread == 0) 
break; 
ec_negl( write(pfd(1], buf, nread) ) 
} 
ec_negl( close(fd) ) 
ec_negl( close(pfd{1}) ) 
while (true) ( 
ec_negl( nread = read(pfd(0], buf, sizeof(buf)) ) 
if (nread == 0) 
break; 
ec_negl( write(STDOUT_FILENO, buf, nread) ) 
} 
ec_negl( close(pfd[0]) ) 
ec_negl( waitpid(pid, NULL, 0) ) 
return; 


EC_CLEANUP_BGN 
EC_FLUSH("fsort0"); 

EC_CLEANUP_END 

} 


下 面 是 datafile 中 的 内 容 : 


peach 
apple 
orange 
strawberry 
plum 

pear 
cherry 
banana 
apricot 
tomato 
pineapple 
mango 


当 运 行 这 个 程序 时 ， 其 输出 和 datafile 中 一 样 一 水果 没有 排序 ， 然 后 挂 起 。 必 须 键入 
中 断 键 来 终止 它 。 哪 里 出 错 了 呢 ? 

仅 使 用 一 个 管道 会 带 来 两 个 问题 。 第 一 个 问题 ， 在 向 管道 中 写 入 未 排序 数据 后 ， 父 进程 
会 假定 应 该 能 读 取 到 sort 的 输出 ， 就 立刻 开始 读 取 管道 。 但 若 在 sort 完 成 之 前 ， 它 就 开始 
读 ， 便 只 读 取 了 原来 自己 的 输出 而 已 ! 所 以 输出 的 是 未 经 排序 的 数据 。 这 和 6.2.3 节 中 的 第 一 
个 例子 相似 。 

第 二 个 问题 是 会 引起 死 锁 。 正 在 运行 sort 的 子 进程 开始 读 取 其 标准 输入 ， 而 碰巧 可 能 是 
空 的 ， 因 为 它 的 父 进程 已 经 清空 了 它 。 无 论 是 否 为 空 ， 在 等 待 文件 结尾 的 read 系 统 调用 中 
sort 都 可 能 会 阻塞 ， 这 种 情况 仅 当 写 结尾 关闭 时 才 会 发 生 。 可 以 肯定 的 是 ， 父 进程 已 经 关闭 
了 写 结尾 ， 但 子 进程 仍然 使 它 处 于 打开 状态 一 一 毕竟 ， 子 进程 应 当 在 那里 写 它 的 输出 。 所 以 
子 进 程 被 阻碍 了 。 通 常 ， 读 取 和 写 和 相同 管道 的 任何 过 滤 程序 都 会 死 锁 。 

有 人 可 能 会 试图 通过 使 父 进程 在 读 取 管道 之 前 等 待 子 进程 终止 来 解决 第 一 个 问题 。 首 先 ， 
这 听 起 来 很 不 错 。 但 并 不 起 作用 ， 因 为 如 果子 进程 的 输出 填 满 了 管道 (对 大 量 数据 进行 排序 
时 这 是 可 能 的 )， 那 么 子 进程 将 阻塞 write 系统 调用 。 当 父 进程 阻塞 waitpid 时 ， 也 会 再 次 
死 锁 。 

又 有 人 可 能 尝试 用 一 些 信号 量 来 同步 事件 ， 而 避免 死 锁 ， 但 这 样 比较 复杂 。 如 果 使 用 两 
个 管道 ， 每 个 仅 处 理 控制 单 向 流量 ， 问 题 便 完 全 解决 了 。 一 个 管道 处 理 流入 sort 的 数据 ， 而 
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另 一 个 管道 处 理 数据 流出 。 下 面 是 重 写 的 能 正确 工作 的 fsort0 的 代码 : 


void fsort (void) 
{ 
int pfdout [2], pfdin{2], fd; 
ssize_t nread; 
pid_t pid; 
char buf[512]; 


ec_negl( pipe(pfdout) ) 

ec_negl( pipe(pfdin) ) 

ec_negi( pid = fork() ) 

if (pid == 0) { /* child */ 
ec_negl( dup2(pfdout [0], STDIN_FILENO) ) 
ec_negl( close(pfdout[0}) ) 
ec_negl( close(pfdout[1]) ) 
ec_negl( dup2(pfdin{1], STDOUT_FILENO) ) 
ec_negl( close(pfdin(0]) ) 
ec_negl( close(pfdin{1]) ) 
execlp("sort", "sort", (char * ) NULL); 
EC_FAIL 





$ 
/* parent */ 
ec_negl( close (pfdout[0]) ) 
ec_negl( close(pfdin[1]) ) 
ec_negl( fd = open("datafile"，O_RDONLY) ) 
while (true) { 
ec_negl( nread = read(fd, buf, sizeof(buf)) ) 
if (nread == 0) 
break; 
ec_negl( write(pfdout[1], buf, nread) ) 
) 
ec_negl( close(fd) ) 
ec_negl( close(pfdout [1]) ) 





while (true) { 
ec_negi( nread = read(pfdin(0], buf, sizeof(buf)) ) 
if (nread == 0) 
break; 


ec_negi( write(STDOUT_FILENO, buf, nread) ) 
} 
ec_negl( close(pfdin[0]) ) 
ec_negl( waitpid(pid, NULL, 0) ) 
return; 


EC_CLEANUP_BGN 
EC_FLUSH("fsort") ; 

EC_CLEANUP_END 

} 


结果 如 下 : 


apple 
apricot 

.banana 
cherry 
mango 
orange 
peach 
pear 
pineapple 
plum 





BAG NES 267 





strawberry 
tomato 


不 仅 排序 了 列表 ， 而 且 该 程序 本 身 也 停止 了 所 有 的 运行 ! 关于 正确 版 本 有 意思 的 是 : 尽 
管 多 使 用 了 一 个 管道 ， 并 没有 多 消耗 文件 描述 符 。 在 两 个 版 本 中 ， 父 进程 和 子 进程 都 需要 向 
彼此 读 和 写 ， 所 以 每 个 都 需要 两 个 管道 文件 描述 符 。 在 第 二 个 版 本 中 ， 父 进程 能 够 关闭 
pfdout 的 读 结尾 和 pfdin 的 写 结尾 。 

通常 ， 使 用 两 个 管道 仍 可 能 产生 死 锁 ， 尽 管 这 里 使 用 sort 的 例子 中 没有 出 现 。 如 果 输 出 
管道 满 了 ， 而 子 进程 没有 清空 它 ， 而 是 写 回 足 够 的 输出 给 父 进程 以 至 于 阻塞 另 一 管道 时 ， 父 
进程 会 阻塞 写 输出 管道 ， 这 时 就 发 生 了 死 锁 。 必 须 仔细 检查 每 一 种 情况 ， 以 确保 绝对 不 会 产 
生死 锁 ， 不 要 只 使 用 少量 的 检测 数据 来 检测 。 

还 存在 其 他 的 产生 死 锁 的 方式 。 为 了 探究 其 中 的 一 种 ， 下 面 来 看 一 个 更 复杂 的 进程 间 双 
向 通信 的 例子 。 这 里 子 进 程 是 标准 行 编辑 器 一 -ed。 父 进程 把 编辑 器 作为 服务 器 向 它 发 送 编 
辑 命令 行 ， 并 得 到 输出。 可 视 化 编辑 器 可 能 会 采用 这 样 的 安排 ， 由 父 进程 控制 键盘 和 屏幕 ， 
而 让 ed 做 具体 的 编辑 工作 。 这 里 没有 空间 显示 一 个 可 视 化 的 编辑 器 ， 所 以 下 面 的 示例 是 非常 
简单 的 。 它 是 个 交互 搜索 程序 ， 很 像 9rep。 下 面 是 会 话 示例 (输入 的 用 下 划 线 表示 ): 


$ search 
File? datafile 


Search pattern? ^a 
apple 
apricot 


Search pattern? apple 
apple 
pineapple 


Search pattern? o$ 
tomato 
mango 


Search pattern? EOT 
$ 


水 果 数 据 文件 来 自前 面 的 排序 例子 。 

当 使 用 sort 时 ， 我 知道 什么 时 候 停止 读 取 其 输出 : 即 当 到 达 文件 结尾 时 。 这 个 情况 是 简 
单 的 ， 因 为 sort 只 是 读 取 所 有 输入 ， 写 和 人 所 有 输出 ， 然 后 终止 。 然 而 ， 编 辑 器 是 交互 的 。 它 
读 取 某 些 输 入 ， 可 能 会 写 一 些 不 确定 长 度 的 输出 ， 也 可 能 不 写 ， 然 后 返回 来 读 取 更 多 的 输入 。 
可 以 通过 将 其 标准 输出 生成 管道 来 捕获 其 输出 ， 但 怎样 才能 知道 一 次 要 读 取 多 少数 据 呢 ? 不 
能 等 待 文件 结尾 ， 因 为 编辑 器 直到 终止 时 才 会 关闭 其 输出 文件 描述 符 。 如 果 读 取 的 数据 太 多 ， 
会 产生 死 锁 ， 而 如 果 读 取 的 不 够 ， 将 失去 命令 和 它 的 结果 间 的 同步 。 

如 果 能 够 修改 编辑 器 ， 使 得 每 当 编辑 器 准备 读 取 更 多 输入 时 ， 都 可 以 发 送 一 个 明确 的 数 
HT. 事实 上 ,编辑 器 确实 有 能 力 提示 用 户 输入 (通过 P 命 令 实现 ), 但 提示 符 是 *， 很 不 明确 。 
(尽管 可 以 改变 提示 符 ; 见 练习 6.12。) 无 论 如 何 ， 都 需要 使 编辑 器 告知 完成 输出 每 个 命令 结 
果 的 时 间 。 

有 一 个 技巧 可 以 使 用 : 在 每 个 命令 之 后 , 带 有 一 个 不 存在 的 文件 名 调用 r( 读 文件 ) 命令 ， 
并 从 ed 查找 出 现 错误 的 消息 。 当 这 个 消息 出 现时 ， 就 能 知道 编辑 器 响应 了 错误 的 命令 ， 并 
准备 接受 另 一 个 命令 。 不 存在 的 文件 名 应 该 是 那样 的 ， 以 至 于 错误 消息 是 确定 的 。 最 好 使 用 
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包含 很 少 在 文本 文件 中 出 现 的 控制 符 构成 的 名 字 ， 但 为 了 清晰 ， 这 里 使 用 “end-of-file” 作 为 
名 字 。 为 了 查看 消息 的 确切 形式 ， 运 行 编辑 器 : 


$ ed 

x end-of-file 
?end-of-file 
a 

$ 


所 以 ， 必 须 寻 找 “?end-of-file”。 

为 了 使 事情 更 容易 ， 可 以 编写 函数 来 处 理 和 编辑 器 的 交互 。 在 处 理 开 始 部 分 ， 使 用 
edinvoke 调 用 编辑 器 并 建立 管道 。 不 直接 使 用 文件 描述 符 ， 因 为 这 样 要 求 用 read 和 write 
处 理 IO ， 而 这 里 要 使 用 fdopen 创 建 标准 C 的 FILE 指 针 。 然 后 ， 可 以 用 sndfp 向 编辑 器 写 信 ， 
用 rcvfp 从 编辑 器 中 读 取 。 下 面 是 edinvoke， 很 像 fsort 的 第 一 部 分 : 


static FILE *sndfp, *revfp; 


static bool edinvoke(void) 

{ 
int pfdout [2], pfdin[2]; 
pid_t pid; 


ec_negl( pipe(pfdout) ) 
ec_negl( pipe(pfdin) ) 
switch (pid = fork()) { 
case -1: 
EC_FAIL 
case 0: 
ec_negi( dup2(pfdout [0], STDIN_FILENO) ) 
ec_negl( dup2(pfdin[1], STDOUT_FILENO) ) 
ec_negl( close(pfdout(0]) ) 
ec_negl( close(pfdout[1]) ) 
ec_negl( close(pfdin[0]) ) 
ec_negl( close(pfdin[1}) ) 
execlp("ed", *ed", "-",(char* ) NULL); 
EC_FAIL 
d 
ec_negl( close(pfdout(0]) ) 
ec_negl( close(pfdin{1}) ) 
ec_null( sndfp = fdopen(pfdout[1], "w") ) 
ec_null( revfp = fdopen(pfdin[0], *r*) ) 
return true; 


EC_CLEANUP_BGN 
if (pid == 0) { 
EC_FLUSH ("edinvoke") ; 
exit (EXIT_FAILURE) ; 
} 
return false; 
EC_CLEANUP_END 
} 


注意 当 遇 到 错误 时 ， 子 进程 调用 的 是 _exit， 而 不 是 exit ,但 接着 必须 要 调用 
EC_FLUSH 来 显示 错误 消息 ， 如 5.6 节 中 所 做 的 那样 。 

为 了 读 写 管道 ， 这 里 使 用 edsnd、edrcv 和 turnaround。 当 没有 更 多 的 编辑 器 输出 可 
用 时 ，edrcv 将 返回 false， 之 所 以 知道 这 个 事实 是 因为 它 已 经 发 现 了 强制 性 的 错误 消息 。 
( 它 把 从 fgets 返 回 的 、 用 于 指示 实际 文件 结尾 的 NULL 看 成 是 一 个 错误 。 ) 为 了 确认 错误 消息 
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在 那里 ， 必 须 调用 krunaround 实 现 从 发 送 到 接收 的 转换 。 下 面 是 这 三 个 函数 : 


static bool edsnd(const char *s) 
{ 
ec_eof( fputs(s, sndfp) ) 
return true; 


EC_CLEANUP_BGN 
return false; 

EC_CLEANUP_END 

5 


static bool edrev(char *s, size_t smax) 


t 
ec_null( fgets(s, smax, rcvfp) ) 
return true; 


EC_CLEANUP_BGN 
return false; 

EC_CLEANUP_END 

H 


static bool turnaround (void) 

{ 
ec_false( edsnd(*r end-of-file\n") ) 
ec_eof( fflush(sndfp) ) 
return true; 


EC_CLEANUP_BGN 
return false; 

EC_CLEANUP_END 

} 


这 里 刷新 了 sndfp， 以 便 编辑 器 能 够 获得 所 有 的 输出 ， 因 为 一 般 输 出 到 管道 的 数据 都 会 


被 放 到 缓冲 区 中 。 
因为 通常 需要 显示 编辑 器 所 做 的 所 有 操作 ， 所 以 实现 它 的 函数 应 该 垂 手 可 得 : 


static bool rcvall(void) 


t 
char s[200]; 


ec_false( turnaround() ) 
while (true) { 
ec_false( edrcv(s, sizeof(s)) ) 
if (stremp(s, "?end-of-file\n*) == 0) 
break; 
printf("ts", s); 
) 
return true; 


EC_CLEANUP_BGN 
return false; 

EC_CLEANUP_END 

J 


最 后 ，main 程 序 管理 与 用 户 的 对 话 和 与 编辑 器 的 通信 : 


int main(void) 


t 
char s[100], line[200]; 


bool eof; 
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ec_false( prompt ("File", s, sizeof(s), &eof) ) 
if (eof) 
exit (EXIT_SUCCESS) ; 
ec_false( edinvoke() ) 
snprintf (line, sizeof(line), "e ts\n", s); 
ec_false( edsnd(line) ) 
ec_false( revall() ); 
while (true) ( 
ec_false( prompt ("Search pattern", s, sizeof(s), &eof) ) 
if (eof) 
break; 
snprintf (line, sizeof(line), *g/ts/p\n", s); 
ec_false( edsnd(line) ) 
ec_false( revall() ); 
} 
ec_false( edsnd("q\n") ) 
exit (EXIT_SUCCESS) ; 


EC_CLEANUP_BGN 
exit (EXIT_FAILURE) ; 
EC_CLEANUP_END 
y 
static bool prompt (const char *msg, char *result, size_t resultmax, 
bool *eofp) 
{ 


char *p; 


print£("\n’s? *, msg); 
if (fgets(result, resultmax, stdin) == NULL) { 
if (ferror(stdin)) 
EC_FAIL 
*eofp = true; 
} 
else { 
if ((p = strrchr(result, '\n')) != NULL) 
*p = o; 
*eofp = false; 
} 
return true; 


EC_CLEANUP_BGN 

return false; 

EC_CLEANUP_END 

) 

这 个 程序 能 避免 死 锁 吗 ? 因为 已 经 知道 管道 的 容量 至 少 是 512 字 节 ， 又 因为 这 里 编辑 器 的 
命令 都 非常 短 ， 所 以 当 向 编辑 器 的 输入 管道 写 人 时 ， 父 进程 绝对 不 会 阻塞 。 编 辑 器 决 不 会 阻 
塞 ， 除 了 偶尔 向 父 进程 写 回 外 ， 因 为 父 进程 会 读 取 所 有 必须 输出 的 东西 。 没 有 任何 理由 殷 掉 
坏 文件 消息 ， 除 非 有 人 确实 想 用 那个 名 字 生 成 文件 ， 当 然 最 好 还 是 不 要 用 这 个 名 字 。 虽 然 不 
是 一 个 很 好 的 示例 ， 但 至 少 已 经 避免 了 明显 的 缺陷 。 

该 示例 显示 的 输出 是 在 Solaris 系 统 上 生成 的 。 这 个 程序 根本 不 能 在 FreeBSD、Darwin 或 
Linux 上 运行 ， 因 为 它们 的 ed 版 本 是 不 同 的 。 如 果 对 细节 好 奇 ， 那么 可 以 看 练习 6.12。 


6.6 用 双向 管道 进行 双向 通信 
第 一 次 介绍 管道 时 ( 见 6.2.1 节 ) 曾 说 过 ， 第 一 个 文件 描述 符 (pfd[01) 是 为 读 取 而 打开 
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的 ,第 二 个 (Pfd[1]) 是 为 写 人 而 打开 的 ， 并 且 写 在 pfd[1] 上 的 东西 能 从 pfd[ 0 ] 中 读 出 。 
然后 给 出 过 几 个 有 用 的 例子 。 在 例子 中 ， 一 个 进程 是 写 进程 ， 而 另 一 个 是 读 进程 ， 包 括 使 用 
两 个 管道 (每 个 都 是 单 向 的 ) 进行 双向 通信 的 例子 ， 实 际 上 这 种 方式 很 像 两 个 单 向 公路 组 成 
一 个 分 车 道 的 高 速 公路 。 

所 有 介绍 过 的 关于 管道 的 内 容 都 是 真实 的 ， 但 这 并 不 意味 着 文件 描述 符 仅 为 读 或 写 打开 。 
为 探知 其 中 的 原因 ， 下 面 给 出 一 个 能 够 显示 管道 文件 描述 符 访问 模式 的 小 程序 : 


void pipe_access_mode (void) 
{ 
int pfd(2), flags, i; 


ec_negl( pipe(pfd) ) 
for (i = 0; i < 2; i++) { 
ec_negl( flags = fentl(pfd[i), F_GETFL) ) 
if ((flags & O_ACCMODE) == O_RDONLY) 
printf ("pfd[l%d] O_RDONLY\n", i); 
if ((£lags & O_ACCMODE) == O_WRONLY) 
printf ("pfd[l%d] O_WRONLY\n", i); 
if ((flags & O_ACCMODE) == O_RDWR) 
printf ("pfd[l%d] O_RDWR\n", i); 
} 


return; 


EC_CLEANUP_BGN 
EC_FLUSH ("pipe_access_mode") 

EC_CLEANUP_END 

} 


在 Linux 系 统 上 ， 得 到 了 所 期 望 的 内 容 : 


pfd(0] O_RDONLY 
pfd[1] O_WRONLY 


但 看 看 FreeBSD 和 Solaris 上 的 输出 : 

pfd(0) O_RDWR 

pfd(1] O_RDWR 
管道 的 两 个 结尾 对 读 和 写 都 是 打开 的 ! 这 证 明 在 这 两 个 系统 上 ( 和 其 他 系统 上 ) 写 在 pfd[0] 
上 的 任何 东西 都 可 以 在 pfd[ 1] 中 读 出 ， 而 写 在 pfd[1] 上 的 任何 东西 也 都 可 以 在 Pfd[0] 中 
读 出 ， 并 且 数 据 是 绝 不 会 混 靖 的 。 事 实 上 ， 在 这 些 系统 上 ， 单 个 管道 就 是 没有 冲突 的 、 分 车 
道 的 高 速 公路 。 这 说 明 仅 用 一 个 管道 便 可 以 建立 双向 通信 ， 因 为 管道 是 双向 的 。 

为 了 说 明 这 一 点 ， 下 面 给 出 来 自前 节 中 最 后 一 个 例子 edinvoke 的 一 个 修正 版 本 : 


static FILE *sndfp, *revfp; 


static bool edinvoke(void) 
t 
int pfd[2); 
` pid_t pid; 


ec_negl( pipe(pfd) ) 
switch (fork()) { 
case -1: 
EC_FAIL 
case 0: * 
ec_negl( dup2(pfd(0], STDIN_FILENO) ) 
ec_negl( dup2 (pfd[0], STDOUT_FILENO) ) 
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ec_negl( close(pfd{0]) ) 
execlp("ed", "ed", *-",(char* ) NULL); 
EC_FAIL 
} 
ec_null( sndfp = fdopen(pfd[1], *w") ) 
ec_null( revfp = fdopen(pfd[1], *r") ) 
return true; 


EC_CLEANUP_BGN 
if (pid == 0) { 
EC_FLUSH ( *edinvoke") ; 
exit (EXIT_FAILURE) ; 
eatin false; 

EC_CLEANUP_END 
) 

上 面 是 改动 过 的 所 有 内 容 一 程序 的 其 他 部 分 是 相同 的 。 其 功能 和 以 前 完全 相同 ， 但 用 一 

个 管道 取代 了 两 个 管道 。 

下 面 是 使 用 双向 管道 来 代替 两 个 单 向 管道 的 缺点 : 

。 因 为 它们 是 非 标准 的 ， 所 以 不 可 移植 。 

。 也 必须 读数 据 的 写 进 程 不 能 关闭 管道 的 写 结尾 以 模拟 文件 结尾 ， 因 为 它 只 有 一 个 结尾 。 
这 意味 着 ， 例 如， 前 节 的 fsort 例 子 不 可 能 写成 只 使 用 一 个 管道 。( 如 果 不 相信 ， 可 以 
试 试 ,) 
因此 ， 如 果 需 要 双向 通信 时 ， 最 好 假定 管道 是 单 向 的 ， 并 使 用 两 个 管道 。 


练习 


6.1 尽 可 能 多 地 使 用 能 得 到 的 shell (例如 sh、ksh、bash、csh) 尝试 输入 错误 命令 行 ， 看 看 会 得 到 什 
么 错误 消息 ， 如 果 出 现 错误 ， 看 看 是 怎么 发 生 的 。 初 学 者 可 以 尝试 下 面 这 些 例子 : 
echo abc > f1 > £2 
echo def | cat < f1 
echo ghi > £1 | cat 
cat < fl < £2 


echo jkl 
echo jki 


6.2 在 6.4 节 中 给 出 的 函数 gettoken 调 用 了 getchar， 且 函数 处 于 INQUOTE 状 态 时 ， 没 有 过 多 地 注意 文 
件 结尾 。 这 是 个 问题 吗 ? 为 什么 是 或 者 为 什么 不 是 ? 

6.3 把 参数 赫 换 物 (如 echo $PATH) 添加 到 6.4 节 的 shell 中 。 

6.4 把 通配符 (文件 名 生成 ) 添加 到 6.4 节 的 shell 中 。 如果 可 以 ,就 使 用 标准 函数 glob ( 大 部 分 系统 都 有 )。 
如 果 不 行 ， 就 限制 匹配 路 径 名 的 最 后 部 分 ( 即 1s */*.c 是 非法 的 )。 

6.5 把 goto 内 置 语句 添加 到 6.4 节 的 shell 中 。 能 够 把 它 实 现成 像 子 进程 一 样 运行 的 外 部 命令 吗 ? (提示 : 
复习 2.2.3 节 中 的 打开 文件 描述 。) 

6.6 把 计 语 句 添加 到 6.4 节 的 shell 中 。 

6.7 设计 并 实现 一 个 菜单 shell。 不 是 提示 命令 ， 而 是 显示 一 个 用 户 可 以 从 中 挑选 的 选择 菜单 ， 命 令 参 数 
也 需要 菜单 。 这 个 shell 不 用 侯 人 各 种 命令 的 细节 ， 应 该 从 数据 库 中 得 到 命令 及 其 参数 的 信息 。 

6.8 设计 和 实现 一 个 窗口 shell， 如 果 有 访问 权 就 使 用 Curses。 把 终端 屏幕 分 为 两 部 分 (水平 划 分 或 垂直 
划分 ， 哪 一 个 更 简单 ? )。 每 一 半 运 行 一 个 shell 子 进程 。 按 下 功能 键 或 控制 键 (如 ，Ctrl-w) 可 以 
选择 活动 窗口 。 非 活动 窗口 运行 的 命令 继续 向 屏幕 输出 ， 但 有 输入 请 求 寺 ， 它 会 阻塞 ， 直 到 用 户 激 
活 了 该 窗口 并 响应 。 窗 口 满 时 会 滚动 ， 滚 动 出 的 行 永远 消失 。 仅 支持 面向 行 的 输入 和 输出 。 设 计 问 


| cat 
> fl 
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题 : 命令 的 标准 输出 应 当 直 接 传送 给 CRT、 特 别 设计 的 过 滤 程 序 还 是 返回 给 窗口 shell 呢 ? 关于 输入 
呢 ? 可 选 的 附加 项 (范围 从 难 到 特别 难 ): 用 户 能 反 滚 窗口 查看 消失 的 内 容 (取决 于 某 种 限制 )。 可 
以 控制 面向 屏幕 和 面向 行 的 输出 。 

6.9 写 一 个 程序 ， 实 现 向 标准 输出 写 它 的 进程 ID， 然 后 从 它 的 标准 输入 读 进程 ID 的 列表 。 如 果 它 本 身 的 
进程 ID 在 列表 中 ， 就 输出 列表 (使 用 文件 描述 符 2)。 否 则 把 自己 的 进程 ID 添加 到 该 列表 ， 并 向 标准 
输出 写 整个 列表 。 接 着 重复 操作 。 把 5 个 运行 该 程序 的 进程 安排 成 一 个 环 ， 让 它们 运行 一 会 (这 是 让 
计算 机 自己 玩 的 一 个 游戏 )。 

6.10 使 用 与 6.5 节 中 的 交互 搜索 程序 类 似 的 方案 ， 为 桌面 计算 器 dc 写 一 个 前 端 程序 ， 允 许 用 户 使 用 中 组 
符号 (2+3) RAREST (23+) 输入 表达 式 。( 这 是 bc 命令 的 功能 .) 

6.11 站 倒 6.3 节 中 的 最 后 一 个 例子 的 命令 顺序 ， 用 wc 作 who 的 父 进程 。 

6.12 如 果 你 使 用 的 是 FreeBSD、Darwin 或 Linux， 那 么 试 着 指出 为 什么 6.6 节 中 的 搜索 程序 不 能 正常 工作 。 
提示 : 它 故意 产生 错误 ， 这 一 直 是 个 有 问题 的 技术 ， 但 它们 的 ed 版 本 并 不 像 这 个 搜索 程序 。 是 把 它 
当 作 漏洞 ， 还 是 编 人 联机 手册 ， 还 是 两 者 都 要 呢 ? 有 方法 修补 吗 ? 

6.13 拓展 你 在 练习 5.14 中 编写 的 程序 ， 以 包含 在 本 章 解释 的 附录 A 中 的 进程 属性 。 


第 7 章 高 级 进程 间 通信 


7.1 概述 


BAMA, 我们 已 经 知道 如 何 用 管道 连接 两 个 进程 ， 但 这 仅 针对 有 关 的 进程 ， 而 且 仅 
针对 管道 在 其 中 一 个 进程 之 前 被 创建 的 情况 ， 这 是 由 于 使 用 文件 描述 符 的 唯一 方式 是 继承 。 
对 于 更 现实 的 情况 : 服务 器 连续 运行 ， 与 服务 器 通信 的 客户 经 常 要 连接 、 断 开 ， 这 时 用 管道 
的 话 限制 就 太 多 了 。 在 建立 连接 时 ， 需 要 更 大 的 灵活 性 ， 对 信息 流 需 要 更 多 的 控制 (例如 队 
列 和 优先 权 )， 并 且 当 有 许多 数据 通信 时 ， 需 要 更 高 的 效率 。 

值得 高 兴 的 是 ， 目 前 UNIX 系 统 除 了 管道 通信 外 还 有 几 种 进程 间 通 信 (PC) 的 机 制 : 命 
名 管道 、 消 息 队 列 、 信 号 量 和 文件 锁 、 共 享 内 存 以 及 套 接 字 。 本 章 涵盖 了 在 单一 系统 内 传递 
数据 的 所 有 IPC 机 制 。 下 章 将 讲述 用 于 不 同系 统 间 的 套 接 字 。 

大 部 分 IPC 机 制 都 很 灵活 ， 完 全 可 以 适应 大 部 分 的 应 用 程序 体系 ， 但 是 如 果 这 里 把 实例 限 
定 在 单 服务 器 同 多 客户 交换 数据 消息 的 情况 ， 那 么 对 于 初学 者 来 说 就 更 容易 理解 了 。 为 了 简 
单 明 了 地 比较 这 些 机制 ， 这 里 介绍 一 种 简单 消息 接口 (SMI)， 然 后 用 6 种 不 同 的 方式 实现 它 ， 
这 6 种 方式 为 : FIFO (命名 管道 )、System V 消 息 队列 、POSIX 消 息 队 列 、System V 共 享 内 存 
和 信号 量 、POSIX 共 享 内 存 和 信号 量 、 套 接 字 (在 下 一 章 介绍 )。 这 会 给 你 打下 一 个 坚实 的 基 
础 ， 使 你 能 为 自己 的 应 用 程序 选择 恰当 的 机 制 ， 然 后 当 你 要 研究 所 选 机 制 的 高 级 特性 时 ， 可 
以 在 此 基础 之 上 建立 。 

既然 用 这 几 种 方式 基本 都 可 以 实现 同一 件 事 ， 那 么 自然 就 想 知道 哪 种 是 最 好 的 。 下 面 就 
是 达到 “最 好 ”的 起 码 的 3 个 尺度 : 

* 方 便 使 用 ， 与 应 用 程序 的 需要 相 匹配 ; 

。 可 移植 性 ， 可 用 于 不 同 的 系统 ， 如 从 HP/UX、Solaris 或 AIX 移 植 到 Linux; 

AR. 

本 书 在 介绍 每 种 IPC 机 制 和 在 “评论 ”部 分 进行 总 结 时 ， 将 深入 地 研究 前 两 个 尺度 。 效 率 
很 大 程度 上 取决 于 系统 中 IPC 机 制 的 实现 情况 ， 以 及 应 用 程序 如 何 使 用 这 种 机 制 ， 因 此 ， 如 果 
可 行 的 话 ， 可 以 考虑 应 用 程序 的 抽象 层 (与 SMI 类 似 )。 这 就 允许 在 程序 运行 后 实验 不 同 的 机 
制 。 在 本 章 末尾 将 提供 一 些 定时 测试 的 结果 。 当 然 ， 这 肯定 不 是 定论 ， 可 能 会 有 不 同 的 结果 。 


7.2 FIFO 或 命名 管道 


FIFO 结 合 了 普通 文件 和 管道 的 特性 。 与 普通 文件 相同 的 是 ， 它 有 和 名字， 任何 有 适当 权限 
的 进程 都 可 以 打开 它 进行 读 取 和 写 入 。 与 管道 不 同 的 是 ， 不 相关 的 进程 可 以 通过 FIFO 进 行 通 
信 ， 因 为 进程 不 单单 依靠 继承 性 来 访问 它 。 但 是 FIFO 打 开 时 ， 比 普通 文件 更 像 管道 。 它 遵循 
了 6.2.2 节 描述 的 管道 行为 方式 。 

一 般 来 说 ， 当 读 进程 打开 FIFO 时 ，open 需 要 等 到 有 写 进程 打开 FIFO 时 才能 执行 ， 通 常 
该 写 进程 是 另外 一 个 进程 。 同 样 ， 一 个 写 人 进程 的 open 操 作 也 会 阻塞 ， 直 到 有 另 一 个 读 进程 
打开 FIFO 为 止 。 因 此 无 论 哪个 进程 ( 读 进程 或 写 进程 ) 首先 执行 open 操 作 ， 都 需要 等 待 另 一 
个 进程 。 这 就 允许 进程 在 实际 数据 传输 开始 前 使 它们 自身 达到 同步 。 
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如 果 在 open 上 设置 了 0_NONBLOCK 标 志 ， 那 么 对 读 进 程 的 open 会 立即 返回 (利用 打开 
文件 描述 符 )， 而 不 用 等 待 写 进程 ， 而 对 于 写 ， 如 果 没 有 读 进程 打开 FIFO， 那 么 open 会 将 
errno 设 为 ENXIO， 并 返回 值 - 1。 这 种 不 对 称 意味 着 当 读 进程 用 0_NONBLOCK 打 开 时 是 有 
用 的 ， 但 当 写 进程 这 样 打开 时 却 很 笨拙 ， 这 是 因为 必须 处 理 错误 ， 然 后 也 许 要 必须 重新 尝试 
open。 这 种 行为 的 目的 是 预防 已 经 将 数据 放 入 FIFO 但 不 能 被 马上 读 取 的 进程 ， 因 为 UNIX 没 
有 办 法 在 FIFO 中 永久 地 存储 数据 。 就 像 水 管 一 样 ， 两 头 被 焊接 起 来 时 才能 打开 水 管 开关 。 当 
所 有 读 写 进程 都 关闭 了 文件 描述 符 时 ， 如 果 FIFO 里 面 还 有 数据 的 话 ， 那 么 数据 会 被 抛弃 且 没 
有 任何 错误 提示 。 这 也 很 像 水 管 : 如 果 在 两 头 断 开水 管 ， 里 面 的 水 就 会 泄露 出 来 。 


7.2.1 创建 FIFO 
与 普通 文件 不 同 ， 不 能 利用 open 创 建 FIFO; 可 以 使 用 单独 的 系统 调用 : 
mkfifo 一 一 建立 FIFO 


#include <sys/stat.h> 


int mkfifo( 


const char *path, /* pathname */ 
mode_t perms /* permissions */ 


); 
/* Returns 0 on success or -1 on error (sets errno) */ 





Perms 参 数 的 使 用 方法 与 open 的 第 三 个 参数 相似 ; 也 就 是 说 ， 它 是 新 文件 的 权限 。 

FIFO 的 明显 应 用 是 替换 管道 。 代 替 使 用 Pipe 系统 调用 ， 创 建 一 个 FIFO， 为 了 得 到 读 文 
件 描述 符 和 写 文件 描述 符 打 开 它 两 次 。S 从 这 时 起 就 可 以 把 它 看 作 是 管道 。 但 是 与 管道 相 比 ， 
这 样 用 FIFO 没 有 任何 优势 ， 反 而 有 几 个 缺点 : 创建 FIFO 需 要 额外 开销 ， 要 得 到 文件 描述 符 需 
要 两 个 系统 调用 ， 和 使 用 临时 文件 一 样 有 命名 冲突 的 风险 。 

FIFO 不 能 添加 到 UINX 里 以 替换 管道 ， 添 加 FIFO 是 为 了 在 服务 器 进程 和 客户 端 之 间 提 供 
一 个 简单 的 传送 数据 的 方法 。 回 顾 管道 的 一 个 限制 是 :用 于 读 写 管 道 的 文件 描述 符 只 能 通过 
继承 传递 给 一 个 进程 。 但 是 如 果 服 务 器 保持 运行 状态 ， 而 客户 端 进程 经 常 链 上 断 开 ， 那 么 就 
不 能 这 么 做 。 由 于 任何 拥有 适当 权限 的 进程 都 可 以 打开 一 个 FIFO ， 因 此 服务 器 可 以 比较 容易 
安排 创建 一 个 有 固定 名 字 的 进程 以 便 客户 端 能 打开 它 。 

在 本 章 ， 将 使 用 所 有 引入 的 进程 间 通 信 机 制 在 进程 间 传送 消息 ， 这 里 消息 指 的 是 较 短 的 
结构 化 数据 块 ， 而 不 是 如 第 6 章 一 样 采用 数据 流 。 然 而 ， 需 要 记 住 同样 可 以 使 用 FIFO 来 传送 数 
据 流 。 

7.2.2 一 个 简单 的 FIFO 例 子 

首先 从 两 个 程序 开始 ， 服 务 器 和 客户 端 。 服务 器 不 间断 运行 ， 等 待 客户 端 给 它 发 送 消息 。 
本 例 中 ， 消 息 是 一 组 需要 转换 为 大 写字 母 的 字符 串 。 服 务 器 转换 完毕 后 ， 把 消息 送 回 给 客户 
端 ， 然 后 继续 循环 等 待 下 一 个 可 能 来 自 不 同 客户 端的 消息 。 例 中 的 客户 端 发 送 少量 字符 串 给 
服务 器 ， 显 示 结 果 ， 然 后 退出 。 

服务 器 是 这 样 开 始 的 : 


$ smsg_server& 
server started 


日 在 你 的 系统 上 ， 读 进程 和 写 进程 同时 (O_RDWR) 打开 它 可 能 也 可 以 正常 工作 ， 但 是 那样 不 标准 。 
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[1] 8725 
$ 
然后 客户 端 运行 如 下 : 


$ smsg_client 
client 8747 started 

client 8747: applesauce --> APPLESAUCE 
client 8747: tiger --> TIGER 

client 8747: mountain --> MOUNTAIN 
Client 8747 done 


图 7-1 给 出 了 服务 器 、 客 户 端 和 FIFO 的 工作 过 程 。 服 务 器 面向 所 有 客户 端 创建 一 个 输入 
FIFO， 称 为 “fifo_server”"。 每 个 客户 端 (图 中 有 两 个 ) 创建 自身 的 FIFO 用 来 接收 服务 器 的 应 
答 ， 它 们 所 使 用 的 进程 ID 的 命名 是 唯一 的 。 如 图 ， 客 户 端 8748 发 送 一 个 消息 (用 正方 形 表示 )， 
其 中 包含 要 转换 的 数据 (“tiger”) 和 自身 的 进程 ID。 服 务 器 由 自身 的 输入 FIFO 读 取信 息 ， 进 
行 转换 (转换 成 “TIGER”)， 然 后 利用 发 送 的 进程 ID (8748) 决定 把 结果 送 回 哪个 FIFO。 因 
此 ， 它 们 仅 有 一 个 共同 的 服务 器 FIFO， 但 每 个 客户 端 分 别 有 各 自 的 应 答 FIFO。 


服务 器 
TIGER 
\ | 8748 


fo_server 








图 7-1 带 有 两 个 客户 端的 服务 器 


客户 端 和 服务 器 必须 使 用 相同 的 算法 来 组 成 从 客户 端 进程 ID 传 来 的 FIFO 名 字 ， 为 了 这 个 
目的 ， 在 本 例 中 使 用 它们 共享 的 一 个 函数 : 


bool make_fifo_name(pid_t pid, char *name, size_t name_max) 


{ 
snprintf (name, name_max, "fifotld*, (long)pid); 


return true; 
J 


公共 的 头 文件 定义 了 固定 的 服务 器 FIFO 名 字 及 消息 的 结构 : 
#define SERVER_FIFO_NAME "fifo_server" 
struct simple_message { 


pid_t sm_clientpid; 
char sm_data[200]; 


) 
下 面 是 服务 器 程序 的 代码 : 


int main(void) 
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int fd_server, fd_client, i; 
ssize_t nread; 
struct simple_message msg; 
char fifo_name[100]; 
printf ("server started\n"); 
if (mkfifo(SERVER_FIFO_NAME, PERM_FILE) == -1 && errno != EEXIST) 
EC_FAIL 
ec_negl( fd_server = open(SERVER_FIFO_NAME, O_RDONLY) ) 
while (true) { 
ec_negl( nread = read(fd_server, &msg, sizeof (msg)) ) 
if (nread == 0) { 
errno = ENETDOWN; 
EC_FAIL 
} 
for (i = 0; msg.sm.data[i] != '\0'; i++) 
msg.sm_data[i] = toupper(msg.sm_data[i}); 
ec_false( make_fifo_name(msg.sm_clientpid, fifo_name, 
sizeof (fifo_name)) ) 
ec_negl( fd_client = open(fifo_name, O_WRONLY) ) 
ec_negl( write(fd_client, amsg, sizeof(msg)) ) 
ec_negl( close(fd_client) ) 
} 
/* never actually get here */ 
ec_negl( close(fd_server) ) 
exit (EXIT_SUCCESS) ; 


EC_CLEANUP_BGN 
exit (EXIT_FAILURE) ; 

EC_CLEANUP_END 

} 


服务 器 的 工作 如 下 : 

。 它 创建 自身 的 FIFO, 除了 FIFO 已 存在 之 外 , 这 一 过 程 只 有 mkfifo 返 回 错误 时 才 会 失败 ， 
因为 它 可 能 是 从 服务 器 以 前 的 执行 中 遗留 下 来 的 。 

。 为 读 取 而 打 开 自身 的 FIFO。 访 操作 会 阻塞 ， 直 到 有 写 进 程 打开 FIFO， 所 以 在 客户 端 启 


动 以 前 启动 服务 器 也 是 可 以 的 。 
“每 次 都 执行 这 样 的 循环 : 先 读 取消 息 ， 再 转换 数据 ， 然 后 打开 客户 端的 FIFO， 向 该 


FIFO 写 人 结果 消息 ， 最 后 关闭 。 
。 由 于 没有 提供 明确 的 停止 服务 器 的 方法 ， 所 以 服务 器 只 是 无 限期 地 保持 在 循环 中 ， 一 直 


到 kil11 命 令 终止 它 (本 例 中 没有 显示 )。 
你 可 能 已 经 想象 出 客户 端 程序 是 如 何 工作 的 了 。 下 面 是 客户 端的 代码 : 


int main(int argc, char *argv[]) 
{ 
int fd_server, fd_client = -1, i; 
ssize_t nread; 
struct simple_message msg; 
char fifo_name(100]; 
char *work[] = { 
"applesauce", 
"tiger", 
"mountain", 
NULL 
ve 


printf ("client tld started\n", (long)getpid()); 
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msg.sm_clientpid = getpid(); 
ec_false( make_fifo_name(msg.sm_clientpid, fifo_name, 
sizeof (fifo_name)) ) 
if (mkfifo(fifo_name, PERMFILE) == -1 && errno != EEXIST) 
EC_FAIL 
ec_negl( fd_server = open(SERVER_FIFO_NAME, O_WRONLY) ) 
for (i = 0; work[i] != NULL; i++) ( 
strcpy (msg.sm_data, work[i]); 
ec_negl( write(fd_server, &msg, sizeof(msg)) ) 
if (fd client == -1) 
ec_negl( fd_client = open(fifo_name, O_RDONLY) ) 
ec_negl( nread = read(fd_client, &msg, sizeof(msg)) ) 
if (nread == 0) { 
errno = ENETDOWN; 
EC_FAIL 


) 
printf ("client tld: %s --> %s\n*, (long)getpid(), 
work[i], msg.sm_data); 
) 
ec_negl( close(fd_server) ) 
ec_negl( close(fd_client) ) 
ec_negl( unlink(fifo_name) ) 
printf ("Client ld done\n", (long)getpid()); 
exit (EXIT_SUCCESS) ; 


EC_CLEANUP_BGN 

exit (EXIT_FAILURE) ; 
EC_CLEANUP_END 
} 


客户 端的 工作 如 下 : 

* 创建 自身 的 FIFO。 

* 为 写 进程 打开 服务 器 的 FIFO。 该 操作 会 阻塞 ， 直 到 有 读 进程 打开 FIFO， 所 以 在 服务 器 

启动 之 前 启动 客户 端 是 可 以 的 。 

“对 于 每 个 需要 转换 的 字符 串 ， 形 成 消息 ， 写 到 服务 器 ， 如 果 必 要 的 话 还 可 以 打开 其 自身 

客户 端的 读 进程 来 读 取 结果 。 

“所 有 的 字符 串 转换 完毕 后 ， 由 于 其 他 客户 端 不 可 能 使 用 其 FIFO， 客 户 端 将 关闭 已 打开 

的 文件 描述 符 并 解 链 FIFO。 

有 两 条 不 好 的 消息 : 首先 ， 客 户 端 和 服务 器 都 有 漏洞 并 具有 相似 的 特性 ; 其 次 ， 前 面 给 
出 的 客户 端 输 出 是 不 正确 的 。 实 际 上 ， 客 户 端的 输出 应 是 这 样 的 : 

$ smsg_client 

client 8747 started 

client 8747: applesauce --> APPLESAUCE 


ERROR: 0: main [/aup/c7/smsg_client.c:46] 0 
*** ? (100: "Network is down") *** 


$ 

发 生 了 什么 事 ? 漏洞 是 什么 ? 位 置 和 errno 的 值 告知 客户 端 是 从 自己 的 FIFO 中 获得 文件 
结尾 的 。 为 什么 客户 端 向 服务 器 发 送 消息 后 没有 数据 ? 该 问题 是 一 种 定时 问题 : 服务 器 在 收 
到 每 条 消息 后 关闭 了 客户 端 FIFO 的 文件 描述 符 ， 并 且 在 客户 端 从 write 到 read 之 前 服务 器 没 
有 抽出 时 间 重新 打开 它 。 所 以 对 写 进程 没有 任何 文件 描述 符 打开 ， 客 户 端 得 到 的 是 文件 结尾 


(如 6.2.2 节 中 解释 的 那样 )。 
修改 很 容易 。 如 果 客 户 端 为 了 向 自身 的 FIFO 写 入 ， 保 持 文件 描述 符 的 打开 状态 (即使 永 
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远 不 会 写 ) ， 那 么 它 会 强制 其 FIFO 的 read 进 入 阻塞 状态 ， 直 到 有 (来 自 服务 器 的 ) 数据 写 入 。 
这 就 是 所 希望 的 行为 。 因 此 必须 修改 客户 端 以 声明 另 一 个 文件 描述 符 变量 ， 代 码 如 下 : 

int fd_client_w = -1; 

然后 连同 读 文件 描述 符 一 起 打开 ， 像 这 样 : 


if (fd_client == -1) 

ec_negl( fd_client = open(fifo_name, O_RDONLY) ) 
if (fd_client_w == -1) 

ec_negl( fd_client_w = open(fifo_name, O_WRONLY) ) 


(应 当 连 同 fd_client 一 起 关闭 . ) 在 多 数 UNIX 系 统 中 ， 也 可 以 仅 利 用 一 个 同时 为 读 进程 和 
写 进 程 打开 的 文件 描述 符 来 修改 客户 端 ， 但 是 这 样 是 不 标准 的 。 
因此 ， 重 新 运行 修改 后 的 客户 端 ， 得 到 的 输出 如 下 : 


client 8937 started 
client 8937: applesauce --> APPLESAUCE 
client 8937: tiger --> TIGER 
client 8937: mountain --> MOUNTAIN 
Client 8937 done 
ERROR: 0: main (/aup/c7/smsg_server.c:33] 0 
*** 2 (100: "Network is down") *** 


仍然 不 正确 ! 现在 服务 器 不 满意 的 是 : 从 它 的 FIFO 中 得 到 一 个 文件 结尾 。 原 因 是 当 客户 
端 没 有 工作 做 时 ， 关 闭 了 服务 器 FIFO 的 写 结尾 并 且 在 没有 其 他 客户 端 运行 时 ， 服 务 器 得 到 了 
文件 结尾 。 这 不 是 所 希望 得 到 的 ， 希 望 的 是 服务 器 保持 运行 状态 ， 理 想 情况 是 阻塞 在 read 中 ， 
直到 有 消息 。 对 服务 器 的 修改 和 客户 端 相 似 ， 为 了 向 自身 的 FIFO 写 入 ， 服 务 器 保持 文件 描述 
符 的 打开 状态 ， 以 避免 文件 结尾 。( 这 里 就 不 给 代码 了 ， 因 为 写 起 来 很 容易 。) 

修改 服务 器 后 ， 不 仅 可 以 顺利 地 运行 这 两 个 程序 ， 而 且 甚至 可 以 运行 多 个 客户 端 : 


$ smsg_client & smsg_client & smsg_client & smsg_client 
client 9001 started 

client 9001: applesauce --> APPLESAUCE 
client 9001: tiger --> TIGER 

{2] 9001 

client 9002 started 

client 9002: applesauce --> APPLESAUCE 
client 9002: tiger --> TIGER 

[3] 9002 

[4] 9003 

client 9004 started 

client 9004: applesauce --> APPLESAUCE 
client 9004: tiger --> TIGER 

client 9003 started 

client 9003: applesauce --> APPLESAUCE 
client 9003: tiger --> TIGER 

client 9002: mountain --> MOUNTAIN 
client 9001: mountain --> MOUNTAIN 
client 9004: mountain --> MOUNTAIN 
client 9003: mountain --> MOUNTAIN 
Client 9001 done 

Client 9002 done 

Client 9004 done 

{2] Done smsg_client 
{3]- Done smsg_client 
$ Client 9003 done 

[4]+ Done smsg_client 


280 #7 





7.2.3 评价 FIFO 
FIFO 的 优点 是 : 
* 容 易 理 解 ， 易 于 应 用 。 因 为 它们 实际 上 是 管道 ， 所 以 可 以 使 用 基本 的 IO 系统 调用 
(open、read、write 等 )。 
© 可 用 在 所 有 版 本 的 UNIX 中 。 
。 效 率 相当 高 ( 见 本 章 末 尾 的 表 7-2)。 
* 对 数据 流 和 离散 消息 的 处 理 较 好 。 为 了 加 速 处 理 ， 一 个 读 进程 可 以 一 次 读 取 多 条 消息 ， 
一 个 写 进程 可 以 一 次 写 完整 个 消息 缓冲 区 ， 前 提 是 只 要 没有 超过 原子 写 的 最 大 值 。 
缺点 是 : 
， 单 个 FIFO 不 能 拥有 多 个 读 进 程 ， 原 因 是 当 进 行 读 操作 时 无 法 保证 操作 的 原子 性 (对 该 
问题 的 更 多 讨论 见 6.2.2 节 )。 

。 必 须 将 数据 从 某 个 进程 的 用 户 空间 复制 到 内 核 缓存 区 ， 然 后 回 到 另 一 个 用 户 空间 ， 这 样 
开销 会 很 大 。( 消息 队列 和 套 接 字 有 相同 的 缺点 。) 因此 ，FIFO 不 适合 最 关键 的 应 用 。 
WRIA BAA ( 见 6.2.2 节 ) ， 写 进程 可 能 会 阻塞 。 如 果 不 仔细 控制 ， 应 用 程序 可 能 会 

死 锁 。 


7.3 ”抽象 的 简单 消息 接口 (SM1) 
把 上 面 例子 里 FIFO 中 消息 的 发 送 和 接收 归纳 成 抽象 的 接口 是 有 用 的 ， 两 个 关键 原因 


如 下 : 
， 像 保持 文件 描述 符 处 于 打开 状态 以 便 可 写 这 样 的 重要 细节 可 以 通过 抽象 接口 的 实现 来 控 


制 ， 使 应 用 程序 的 编写 更 容易 、 更 可 靠 。 

“对 于 不 同 的 IPC 机 制 可 以 编写 不 同 的 实现 程序 。 不 用 改变 应 用 程序 的 源 代码 ， 就 可 以 用 
不 同 的 实现 来 实验 以 发 现 其 中 哪 一 个 是 最 好 的 。 

本 书 把 这 种 接口 称 为 SMI， 即 Simple Messaging Interface 的 缩写 。9 


7.3.1 SMI 类 型 和 函数 
本 节 将 解释 SMI 接 口 ， 特 定 的 实现 将 在 稍 后 介绍 。 首 先 ， 我 们 给 出 通用 的 消息 结构 : 


struct smi_msg 一 一 SMI 的 结构 


struct smi_msg { 
long smi_mtype; /* must be first */ 
struct client_id ( 
long c_idi; 
long c_id2; 
} smi_client; 
char smi_data[1); 
) 





我 们 将 看 到 ， 一 些 实现 需要 前 两 个 成 员 ( smi_mtype 和 smi_client)。 在 7.2.2 节 的 示 
例 中 我 们 已 知 ， 客 房 端 必须 将 它 的 进程 ID 传递 给 服务 器 ; 在 SMI 消 息 中 ， 进 程 ID 存 放 在 
client .cl_id1 中 。 我 们 稍 后 将 介绍 smi_mtype 和 smi_client.c_id2 的 使 用 。 

消息 数据 (smi_data) 可 以 是 满足 如 下 限制 的 任意 信息 

。 服 务 器 和 客户 端 可 能 在 不 同 的 机 器 上 ， 因 此， 不 应 在 网 络 上 传递 无 意义 的 指针 或 其 他 数据 。 

。 因 为 不 同 的 机 器 有 不 同 的 字 节 序 ， 二 进 制 数 需要 表示 成 网 络 标准 格式 。8.1.4 节 会 介绍 这 


O 这 是 为 了 本 书 设计 的 ; 并 不 是 标准 的 一 部 分 。 
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一 主题 。 

在 这 个 简单 的 接口 中 ， 服 务 器 和 客户 端 必须 就 固定 的 消息 大 小 达成 一 致 ， 而 smi_data 
数组 的 实际 大 小 则 取决 于 此 。 一 旦 掌握 了 本 章 和 下 一 章 的 各 项 原则 ， 你 就 可 以 在 你 自己 的 应 
用 程序 使 用 的 SMI 版 本 中 试 着 放松 上 述 的 限制 。 

在 发 送 或 接收 消息 之 前 ， 服 务 器 或 客户 端 必 须 打开 一 个 消息 队列 ， 该 队列 应 在 通信 终止 时 
关闭 。 概 念 上 ， 要 发 送 的 消息 被 放 和 队列， 要 接收 的 消息 被 从 队列 中 取出 。 实 际 的 队列 是 与 
实现 相关 的 ， 并 且 SMI 实 现 隐藏 了 队列 的 细节 。 这 很 像 是 标准 1/O 函 数 隐藏 了 FILE 类 型 的 细节 。 

打开 和 关闭 接口 的 操作 是 : 


SMI types 一 一 SMI 的 类 型 


typedef void *SMIQ; message queue */ 
typedef enum { 
SMI_SERVER, server */ 
SMI_CLIENT * client */ 





} SMIENTITY; 
define SERVER_NAME MAX 50 max size of server name */ 


smi_open 一 一 打开 SMI 消 息 队 列 


SMIQ *smi_open( 
const char ‘name, /* server name */ 
SMIENTITY entity, /* entity being opened */ 
size_t msgsize /* fixed message size */ 
Ve 
/* Returns pointer to message queue or NULL on error (sets errno) */ 


smi_close 一 一 关闭 SMI 消 息 队 列 


bool smi_close( 
SMIQ *sqp /* queue */ 


Ge 
/* Returns true on success or false on error (sets errno) */ 





服务 器 和 所 有 客户 端 都 必须 知道 传递 给 smi_open 的 消息 队列 名 。 如 果实 现 需要 在 打开 
它 之 前 创建 它 ， 那 么 可 以 在 smi_open 内 部 完成 这 个 工作 。 在 这 个 简单 接口 上 没有 任何 许可 
权限 ， 这 也 是 为 什么 它 被 称 为 “简单 ”的 原因 之 一 。 消 息 队列 在 关闭 之 后 是 否 需要 被 留 下 ， 
这 没有 定义 为 接口 的 一 部 分 ， 要 取决 于 具体 实现 。 

entity 参 数 是 SMI_SERVER 还 是 SMI_CLIENT， 要 取决 于 哪 一 种 类 型 的 程序 正在 执行 
打开 操作 。 那 可 能 仅 有 一 个 服务 器 进程 但 有 不 确定 数量 的 客户 端 。 

对 所 有 消息 来 说 , msgsize 参 数 是 smi_msg 结 构 中 smi_data 成 员 的 大 小 。 如 前 面 所 述 ， 
应 提供 相同 大 小 的 消息 。 

为 了 发 送 和 接收 ， 这 里 仅 把 一 个 缓冲 区 的 地 址 传 给 简单 的 收发 函数 ， 与 write 和 read 有 
点 相似 (没有 参数 大 小 ， 因 为 它 是 固定 值 ): 


ec_false( smi_send(sqp, buffer) ) 


ec_false( smi_receive(sqp, buffer) ) 


但 是 如 果 这 样 做 ， 就 要 求 所 有 具体 实现 都 要 复制 每 一 条 消息 : 从 发 送 进程 复制 到 内 核 ， 
再 从 内 核 复制 到 接收 进程 。 这 里 我 们 不 那么 做 ， 而 是 用 一 个 稍微 更 详细 的 接口 ， 该 接口 调用 
两 次 发 送 进程 ， 调 用 两 次 接收 进程 。 每 对 调用 的 第 一 个 调用 仅 得 到 消息 的 地 址 ， 第 二 个 调用 
释放 对 那个 地 址 的 访问 。 这 样 实现 可 以 将 它 保留 在 SMIQ 结 构 中 〈 隐 含 其 确实 已 被 复制 )， 或 者 
保留 在 共享 内 存 中 ， 或 者 其 他 任何 地 方 。 所 有 调用 者 都 知道 的 是 它们 有 一 个 可 以 间接 引用 的 地 
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址 。 必 须 有 释放 地 址 的 函数 ， 因 为 该 地 址 不 可 能 永远 可 用 (内 存 可 能 必须 被 重新 分 配 ， 或 者 共 
享 内 存 段 必 须 被 重用 )， 又 因为 底层 具体 实现 需要 知道 什么 时 候 发 送 程序 准备 好 了 发 送 消息 。 
解释 发 送 操作 前 先 解释 接收 操作 会 更 容易 : 
smi_receive_getaddr 一 一 得 到 收 到 的 SMI 消 息 地 址 
bool smi_receive_getaddr( 


SMIQ *sqp, /* queue */ 
void **addr /* message */ 


de 
/* Returns true on success or false on error (sets errno) */ 


smi_receive_release 一 一 释放 收 到 的 SMI 消 息 


bool smi_receive_release( 
SMIQ *sqp /* queue */ 


Ve 
/* Returns true on success or false on error (sets errno) */ 





addr 参 数 是 一 个 指向 void 指针 的 指针 ， 而 不 是 一 个 指向 smi_msg 结 构 的 指针 ， 因 为 实 
际 上 每 一 个 应 用 都 将 定义 自己 的 消息 结构 ， 消 息 结构 中 的 前 两 个 成 员 和 smi_msg 中 的 前 两 个 
成 员 (smi_mtype 和 smi_client) 匹配 。 

应 用 程序 是 这 样 使 用 这 两 个 调用 的 : 

struct my_msg *msg; 

ec_false( smi_receive_getaddr(sqp, (void **)&msg) ) 


/* process data in msg->smi_data */ 
ec_false( smi_receive_release(sqp) ) 


从 概念 上 讲 ， 调 用 smi_receive_getaddr 时 实际 上 已 经 收 到 了 消息 。 要 注意 ， 应 用 不 给 消 


息 分 配 空间 ; 这 是 由 具体 实现 来 完成 的 。 
发 送 操作 是 非常 相似 的 ， 但 添加 了 一 点 用 于 识别 客户 端的 技巧 : 


“| smi_send_getaddr 一 得 到 发 送 的 SMI 消 息 地 址 


bool smi_send_getaddr ( 
SMIQ *sqp, /* queue */ 
struct client_id *client, /* client ID (server only) 
void **addr /* message */ 

dF 

/* Returns true on success or false on error (sets errno) */ 


smi_send_release 一 一 释放 并 发 送 SMI 消 息 


bool smi_send_release ( 
SMIQ “sqp /* queue */ 


) 
/* Returns true on success or false on error (sets errno) */ 





从 概念 上 讲 ， 当 调用 smi_send_release 时 ， 产生 实 际 的 发 送 。 

服务 器 使 用 smi_send- getaddr 的 第 二 个 参数 识别 正在 向 其 发 送 消息 的 客户 端 。 它 是 
一 个 指向 struct client_id 结 构 的 指针 ， 该 结构 位 于 收 到 的 消息 中 。 这 样 做 是 因为 服务 
器 在 向 客户 端 发 送 消息 之 前 ， 先 从 需要 与 其 进行 通信 的 客户 端 接收 消息 。 发 送 消息 的 客户 端 
不 需要 识别 服务 器 〈 通 过 smi_open 完 成 )， 所 以 第 二 个 参数 是 NULL。 

然后 服务 器 接着 做 下 面 这 样 的 工作 : 


struct my_msg *msg_in, *msg_out; 
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ec_false( smi_receive_getaddr(sqp, (void **)&msg_in) ) 

/* code to process data in msg_in->smi_data */ ` 
ec_false( smi_send_getaddr (sqp, &msg_in->smi_client, (void **)&msg_out) ) 
ec_false( smi_receive_release(sqp) ) 

/* code to put data into msg_out->smi_data */ 

ec_false( smi_send_release(sqp) ) 


可 以 观察 到 : 
* 服务器 使 用 了 两 个 单独 的 my_msg 地 址 (msg_in 和 msg_out)， 因 为 涉及 两 个 不 同 的 组 


TREES 

。 直 到 调用 smi_send_getaddr 了 时 才 会 释放 msg_in，、 因 为 直到 那 时 才 需 要 msg_in- 
>smi_client 结 构 。 可 以 以 这 种 方式 交替 插入 调用 ; 事实 上 ， 甚 至 在 调用 
smi_receive_release 之 后 (发 送 操作 和 接收 操作 完全 是 独立 的 )， 才 可 能 会 调用 
smi_send_release。 或 者 说 ，client_id 结 构 可 能 已 经 被 复制 到 一 个 临时 变量 里 


了 ， 该 变量 的 地 址 可 能 在 调用 smi_send_getaddr 中 使 用 。 
客户 端 采用 如 下 方式 调用 smi_send_getaddr 和 smi_send_release (可 能 有 一 个 


msg_in， 但 这 里 没有 显示 ): 
struct my_msg *msg_out; 


ec_false( smi_send_getaddr(sqp, NULL, (void **)&msg_out) ) 
/* code to put data into msg_out->smi_data */ 
ec_false( smi_send_release(sqp) ) 


下 一 节 有 更 完整 的 解释 。 


7.3.2 服务 器 和 客户 端 使 用 SMI 的 示例 
为 了 说 明 在 一 个 应 用 中 如 何 使 用 SMI 函 数 ， 下 面 对 7.2.2 节 中 的 那个 服务 器 的 例子 进行 改 
写 ， 以 使 用 那个 接口 (define 包 含 在 服务 器 和 客户 端 包 括 的 头 文件 中 ): 


#define SERVER_NAME "smsg_server" 
#define DATA_SIZE 200 


int main(void) 

{ 
SMIQ *sqp; 
struct smi_msg *msg_in, *msg_out; 
int i; 


printf ("server started\n"); 
ec_null( sqp = smi_open (SERVER_NAME, SMI_SERVER, DATA_SIZE) ) 
while (true) ( 
ec_false( smi_receive_getaddr(sqp, (void **)&msg_in) ) 
ec_false( smi_send_getaddr(sqp, &msg_in->smi_client, 
(void **)&msg_out) ) 
for (i = 0; msg_in->smi_data(i] != '\0'; i++) 
msg_out->smi_data[i] = toupper(msg_in->smi_data[i]}; 
msg_out->smi_data{i] = '\0'; 
ec_false( smi_receive_release(sqp) ) 
ec_false( smi_send_release(sqp) ) 
} 
/* never actually get here */ 
ec_false( smi_close(sqp) ) 
exit (EXIT_SUCCESS) ; 
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EC_CLEANUP_BGN 

exit (EXIT_FAILURE) ; 
EC_CLEANUP_END 
} 


下 面 是 客户 端的 代码 : 


int main(int argc, char *argv[]) 
{ 

SMIQ *sqp; 

struct smi_msg *msg; 

int i; 


char *work[] = { 
"applesauce", 
*tiger*, 
"mountain", 
NULL 

X 


printf ("client %ld started\n", (long)getpid()); 
ec_null( sqp = smi_open (SERVER_NAME, SMI_CLIENT, DATA_SIZE) ) 
for (i = 0; work[il != NULL; i++) { 
ec_false( smi_send_getaddr(sqp, NULL, (void **)&msg) ) 
strcpy (msg->smi_data, work[i]); 
ec_false( smi_send_release(sqp) ) 
ec_false( smi_receive_getaddr(sqp, (void **)&msg) ) 
printf("client tld: ts --> ts\n", (long)getpid(), 
work(i], msg->smi_data) ; 
ec_false( smi_receive_release(sqp) ) 
) 
ec_false( smi_close(sqp) ) 
printf ("Client %1d done\n", (long)getpid()); 
exit (EXIT_SUCCESS) ; 


EC_CLEANUP_BGN 
exit (EXIT_FAILURE) ; 
EC_CLEANUP_END 
) 
注意 ， 如 我 们 在 7.2.2 节 中 看 到 的 ， 为 了 进行 写 操作 而 保持 文件 描述 符 处 于 打开 状态 ， 现 
在 这 些 不 好 的 鬼 把 戏 已 经 不 存在 了 ， 例 如 ， 像 给 FIFO 起 名 字 这 样 的 细节 就 没有 了 。 或 许 用 


“隐藏 ” 比 用 “不 存在 ”更 准确 ， 接 下 来 将 要 讨论 这 一 点 。 


7.3.3 SMI 的 FIFO 具 体 实现 


现在 利用 FIFO 去 除 来 自 服务 器 和 客户 端的 消息 的 所 有 复杂 性 必须 深入 到 SMI 函 数 的 具体 
实现 。 另 外 ， 服 务 器 的 实现 试图 使 客户 端的 FIFO 文 件 描述 符 通过 消息 仍 保持 打开 ， 以 便 减 少 
每 次 打开 和 关闭 它们 的 开销 ， 见 7.2.2 节 中 的 示例 。 

FIFO 实 现 使 用 形 如 smifcn_fifo 的 函数 名 ， 其 中 smifcn 是 SMI 名 字 (例如 ，smi_send_ 
getaddr_fifo 是 smi_send_getaddr 的 实现 )。 一 个 小 的 包装 程序 文件 就 能 有 效 地 转换 这 


些 名 字 ， 如 使 用 下 面 的 小 函数 : 


bool smi_send_getaddr(SMIQ *sqp, struct client_id *client, void **addr) 


{ 
return smi_send_getaddr_fifo(sqp, client, addr); 


3 
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使 用 包装 程序 允许 链接 两 类 应 用 : 

。 独 立 于 具体 实现 的 应 用 ， 就 像 前 面 章节 中 提 到 的 一 样 ， 能 够 依据 一 般 的 SMI 函 数 编写 
(例如 smi_send_getaddr )， 接 着 用 一 个 特别 的 实现 和 合适 的 包装 程序 链接 以 便 把 这 
些 调用 从 一 般 转换 成 特殊 。 

* 一 个 想 要 使 用 几 种 实现 方法 的 具体 实现 可 以 使 用 特别 的 函数 名 (例如 smi_send_ 
getaddr_fifo、smi_send_getaddr_skt)， 绕 开 没有 链 入 的 包装 程序 。 这 样 做 的 
主要 目的 是 写 一 个 测试 程序 ,例如 用 不 同 的 方法 运行 同一 个 应 用 ,以 便 比 较 它 们 的 性 能 。 
本 书 就 是 这 么 做 的 ， 目 的 是 为 本 章 结尾 的 表 7-2 做 准备 。 

本 书 没有 给 出 包装 程序 的 代码 ， 但 可 在 网 站 上 看 到 (AUP2003 )。 

首先 从 利用 内 部 消息 队列 的 FIFO 实 现 开 始 。 尽 管 服务 器 和 客户 端 处 在 不 同 的 进程 中 ， 有 

自己 的 数据 ， 但 它们 使 用 相同 的 数据 结构 。 . 

#define MAX_CLIENTS 20 


typedef struct { 


SMIENTITY sq_entity; * entity */ 


$ 
int sq_fd_server; /* server read and ... */ 
int sq_fd_server_w; /* ... write file descriptors */ 
char sq_name(SERVER_NAME_MAX]; /* server name */ 
struct { 
int cl_fd; /* client file descriptor */ 
pid_t cl_pid; /* client process ID */ 
} są clients (MAX_CLIENTS) ; 
struct client_id są client; /* client ID */ 
size_t sq msgsize; /* msg size */ 
struct smi_msg *sq_msg; /* msg buffer */ 
} SMIQ_FIFO; 


每 一 个 服务 器 仅 有 20 个 客户 空间 。 使 用 链表 可 消除 这 个 限制 ， 但 是 我 不 想 这 么 麻烦 。 客 
户 端 和 服务 器 都 使 用 服务 器 的 sq_fd_server， 除 此 之 外 服务 器 用 sq_fd_server_w 保 持 
一 个 打开 的 文件 描述 符 给 写 进程 ， 见 7.2.2 节 中 的 解释 。 服 务 器 用 sq_clients 数 组 保持 客户 
端 文件 描述 符 ， 以 避免 每 次 传人 消息 都 需要 打开 和 关闭 它们 。 客 户 端 仅 需 要 其 中 之 一 读 取 自 
己 的 FIFO， 可 以 使 用 sq_clients[0]。 它 用 sq_clients[1] 来 保持 第 二 个 打开 的 文件 描 
述 符 给 写 进程 。 对 客户 端 来 说 ， 数 组 中 的 剩余 部 分 和 sq_fd_server_w 的 空间 是 浪费 ,但 是 
我 认为 它们 使 用 相同 的 队列 结构 会 更 容易 ， 因 为 浪费 的 空间 小 。 

服务 器 传递 给 smi_send_getaddr_fifo 的 客户 端 ID 信 息 被 保留 下 来 ， 以 便 为 随后 而 来 
的 sa_client 成 员 中 的 smi_send_release_fifo 所 使 用 。 传 递 给 smi_open_fifo 的 大 小 
和 指向 消息 缓冲 区 的 指针 分 别 存在 于 sq_msgsize 和 sq_msg 中 。( 注 意 对 于 FIFO， 不 可 避免 
地 要 进行 复制 ， 复 制 从 用 户 空间 到 内 核 再 回 到 接收 进程 ， 这 同样 也 适用 于 消息 队列 和 套 接 字 . ) 

服务 器 和 客户 端 需要 使 用 下 面 这 个 内 部 函数 来 初始 化 sq_clients 数 组 : 


static void clients_bgn(SMIQ_FIFO *p) 


£ 
int i; 


for (i = 0; i < MAX_CLIENTS; i++) 
p->sq_clients[i].cl_fd = -1; 
} 


并 且 ， 最 后 它们 要 调用 clients_end: 


static void clients_end(SMIQ_FIFO *p) 
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clients_close_all(p); 
ii 


static void clients_close_all(SMIQ_FIFO *p) 


{ 
int i; 


i < MAX_CLIENTS; i++) 

if (p->sq_clients[i].cl_fd != -1) { 
(void) close (p->sq_clients[i} .cl_fd) ; 
p->sq_clients[i].cl_fd = -1; 





在 后 面 的 smi_open_fifo 函 数 和 smi_close_fifo 函 数 中 可 以 看 到 这 些 调用 。 
当 服 务 器 得 到 消息 时 , 会 使 用 clients_find 来 查看 是 否 已 经 为 FIFO 打 开 了 文件 描述 符 ， 
如 果 没 有 ， 就 找 一 个 可 用 的 位 置 : 


static int clients_find(SMIQ FIFO *p, pid_t pid) 
{ 





int i, avail = 











for (i = 0; i < MAX_CLIENTS; i++) { 
if (p->sq_clients[i].cl_pid == pid) 
return i; 
if (p->sq_clients[i].cl_fd == -1 && avail == -1) 
avail = i; 
} 
if (avail != -1) 


p->sq_clients[avail].cl_pid = pid; 
return avail; 
? 


如 果 没有 更 多 客户 端 可 以 处 理 ， 函 数 就 返回 ~ 1。 
最 后 的 几 个 内 部 函数 是 为 FIFO 命 名 的 。 服 务 器 的 命名 是 固定 的 ， 然 而 客户 端的 命名 包含 


它们 的 进程 ID ， 就 如 前 面 7.2.2 节 中 较 早 的 例子 。 


static void make_fifo_name_server(const SMIQ FIFO *p, char *fifoname, 
size_t fifoname_max) 


$ 
snprintf(fifoname, fifoname_max, */tmp/smififo-%s", p->sq_name); 


‘i 


static void make_fifo_name_client(pid_t pid, char *fifoname, 
size_t fifoname_max) 


{ 
snprintf(fifoname, fifoname_max, */tmp/smififotlda", (long)pid); 


) 
现在 来 看 看 smi_open_fifo: 


SMIQ *smi_open_fifo(const char *name，SMIENTITY entity, size_t msgsize) 


{ 
SMIQ_FIFO *p = NULL; 
char fifoname[SERVER_NAME_MAX + 50]; 


ec_null( p = calloc(1, sizeof(SMIQ_FIFO)) ) 
p->sq_msgsize = msgsize + offsetof (struct smi_msg, smi_data); 
ec_null( p->sq_msg = calloc(1, p->sq msgsize) ) 
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p->sq_entity = entity; 
if (strlen(name) >= SERVER_NAME_MAX) { 
errno = ENAMETOOLONG; 
EC_FAIL 
} 
strcpy (p->sq_name, name); 
make_fifo_name_server(p, fifoname, sizeof (fifoname)); 
if (p->sq_entity == SMI_SERVER) { 
clients_bgn (p); 
if (mkfifo(fifoname, PERM_FILE) == -1 && errno != EEXIST) 
EC_FAIL 
ec_negi( p->sq_fd_server = open(fifoname, O_RDONLY) ) 
ec_negl( p->sq_fd_server_w = open(fifoname, O_WRONLY) ) 
} 
else { 
ec_negl( p->sq_fd_server = open(fifoname, O_WRONLY) ) 
make_fifo_name_client(getpid(), fifoname, sizeof (fifoname) ); 
(void) unlink ( £ifoname) ; 
ec_negl( mkfifo(fifoname, PERM_FILE) ) 
ec_negl( p->sq_clients{0].cl_fd = 
open(fifoname, O_RDONLY | O_NONBLOCK) ) 
ec_false( setblock(p->sq_clients(0].cl_fd, true) ) 
ec_negl( p->sq_clients[1}.cl_fa = open(fifoname, O_WRONLY) ) 
) 
return (SMIQ *)p; 


EC_CLEANUP_BGN 
if (p != NULL) ( 
free (p->sq_msg) ; 
free(p); 
AEM NULL; 
EC_CLEANUP_END 
} 
这 段 代码 应 该 容易 理解 ， 特 别 是 如 果 已 经 理解 了 7.2.2 节 中 的 例子 。 但 是 打开 FIFO 的 部 分 
值得 再 回顾 一 下 。 对 服务 器 来 说 ， 打 开 自 身 FIFO 的 顺序 是 : 
ec_negl( p->sq_fd_server = open(fifoname, O_RDONLY) ) 
ec_negl( p->sq_fd_server_w = open(fifoname, O_WRONLY) ) 
如 果 没 有 写 进 程 ， 第 一 个 调用 会 阻塞 ， 这 是 可 以 的 ， 因 为 如 果 没 有 写 进程 ， 服 务 器 也 没有 事 
情 做 。 但 是 客户 端 打开 它 的 FIFO 的 顺序 更 复杂 : 


ec_negl( p->sqL_clients[0] .cl_fd = 
open(fifoname, O_RDONLY | O_NONBLOCK) ) 

ec_false( setblock(p->sq_clients({0].cl_fd, true) ) 

ec_negl( p->sq_clients[1].cl_fd = open(fifoname, O_WRONLY) ) 


车 没有 0o_NONBLOCK 标 志 ， 客 户 端 将 阻塞 cpen， 等 待 服务 器 为 写 进程 打开 一 个 FIFO。 但 
是 ， 服 务 器 会 等 到 得 到 消息 之 后 才 去 打开 ， 因 为 直到 那 时 才 知 道 这 个 特殊 客户 端的 存在 。 死 
锁 ! 解决 方法 是 打开 FIFO， 解 除 阻 塞 ， 如 代码 中 所 显示 的 ， 这 意味 着 可 以 返回 一 个 有 效 的 文件 
描述 符 而 不 用 等 待 写 进程 。 但 是 必须 清除 0_NONBLOCK 标 志 (如 设置 阻塞 ) 以 便 阻塞 随后 的 读 
进程 ， 这 正 是 我 们 想 要 的 行为 。( 使 用 fcnt1 系 统 调用 的 setblock 来 自 4.2.2 节 。) 在 7.2.2 节 的 
例子 中 ， 没 有 必要 这 么 做 ， 因 为 客户 端 直到 已 经 向 服务 器 发 送 了 消息 才 打开 自己 的 FIFO。 这 里 
不 是 那么 工作 的 ， 因 为 SMI 函 数 是 独立 的 ， 有 专门 的 工作 要 做 。( 有 了 时 模块 化 需要 额外 的 工作 .) 

下 面 是 与 其 配对 的 smi_close_fifo 函 数 : 
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bool smi_close_fifo(SMIQ *sqp) 
{ 
SMIQ_FIFO *p = (SMIQ_FIFO *)sqp; 


clients_end(p); 
(void) close (p->sq_fd_server) ; 
if (p->sq_entity == SMI_CLIENT) ( 
char fifoname[SERVER_NAME_MAX + 50]; 


make_fifo_name_client(getpid(), fifoname, sizeof (fifoname)); 
(void) unlink (fifoname) ; 

} 

else 
(void)close(p->sq_fd_server_w); 

free(p->sq_ msg) ; 

free(p); 

return true; 


) 
注意 ， 客 户 端 解 链 了 它们 的 FIFO， 但 是 服务 器 却 保留 了 它 的 FIFO ， 以 便 将 来 即使 没有 服务 器 


运行 ， 也 可 以 启动 客户 端 。 
下 面 是 smi_send_getaddr_fifo 函 数 ， 除 了 保存 客户 端 ID 和 返回 缓冲 区 地 址 外 不 做 


其 他 事情 : 


bool smi_send_getaddr_fifo(SMIQ *sqp, struct client_id *client, 
void **addr) 
{ 
SMIQ_FIFO *p = (SMIQ_FIFO *)sqp; 
if (p->sq entity == SMI_SERVER) 
p->sq.client = *client; 
“addr = p->sq msg; 
return true; 
} 


真正 的 工作 在 smi_send_release_fifo 中 : 


bool smi_send_release_fifo(SMIQ *sqp) 


{ 
SMIQ_FIFO *p = (SMIQ_FIFO *)sqp; 
ssize_t nwrite; 


if (p->sq_entity == SMI_SERVER) { 
int nclient = clients_find(p, p->sq.client.c_idl); 


if (nclient == -1 || p->sq_clients(nclient).cl_fd == -1) { 
errno = EADDRNOTAVAIL; 
EC_FAIL 


J 
ec_negl( nwrite = write(p->sq_clients[nclient].cl_fd, p->sq msg, 
p->sq_msgsize) ) 
} 
else { 
p->sq_msg->smi_client.c_idl = (long)getpid(); 
ec_negl( nwrite = write(p->sq_fd_server, p->Sq Msg, 
p->sq msgsize) ) 
} 
return true; 


EC_CLEANUP_BGN 
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return false; 
EC_CLEANUP_END 
} 


在 7.2.2 节 中 较 早 的 例子 中 没有 出 现 也 是 很 正常 的 。smi_receive_getaddr_fifo 做 了 接 
收 消息 的 所 有 工作 : 


bool smi_receive_getaddr_fifo(SMIQ *sqp, void **addr) 
{ 

SMIQ_FIFO *p = (SMIQ_FIFO *)sqp; 

ssize_t nread; 


if (p->sq_entity == SMI_SERVER) { 
int nclient; 
char fifoname[SERVER_NAME_MAX + 50]; 


while (true) { 
ec_negl( nread = read(p->sq_fd_server, p->sq_ msg, 


p->sq_msgsize) ) 


if (nread == 0) ( 
errno = ENETDOWN; 
EC_FAIL 
) 
if (nread < offsetof (struct smi_msg, smi_data)) { 
errno = E2BIG; 
EC_FAIL 
} 
if ((nclient = clients_find(p, 
(pid_t)p->sq_msg->smi_client.c_idl)) == -1) { 
continue; /* client not notified */ 
) 
if (p->sq_clients(nclient}.cl_fd@ == -1) ( 
make_fifo_name_client ( (pid_t)p->sq_msg->smi_client.c_idl, 
fifoname, sizeof (fifoname) ); 
ec_negl( p->sq_clients{nclient}.cl_fd = 
open(fifoname, O_WRONLY) ) 
} 
break; 


) 
else 
ec_negi( nread = read(p->sq_clients(0].cl_fd, p->sq_msg, 
P->sqmsgsize) ) 
*addr = p->sq_msg; 
return true; 


EC_CLEANUP_BGN 
return false; 

EC_CLEANUP_END 

} 


下 面 是 棘手 的 部 分 : 

if ((nclient = clients_find(p, (pid_t)mp->smi_client)) == -1) ( 
continue; /* client not notified */ 

} 


giRclients_findikEl-1, ZEKER ENEP THB, (HeEsq_clients 
数组 中 却 无 法 得 到 位 置 ， 所 以 不 能 打开 响应 FIFO。 由 于 不 能 响应 ， 所 以 它 甚至 无 法 发 出 错误 
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消息 。 示 例 代码 只 忽略 了 错误 ,但 却 留 下 了 阻塞 的 客户 端 。 替 代 方法 如 下 : 
“发 送 一 个 信号 到 客户 端 ， 修 改 smi_open_fifo 以 便 准 备 捕获 它 。 
* 用 一 个 整 型 变量 控制 一 个 紧急 的 文件 描述 符 来 打开 FIFO， 以 便 可 以 发 送 错误 消息 。 
。 至 少 要 修改 客户 端 ， 以 便 时 间 到 了 可 以 退出 ， 以 避免 永久 阻塞 。 
还 剩 下 一 个 函数 ， 但 它 几乎 没 做 什么 事情 : 


bool smi_receive_release_fifo(SMIQ *sqp) 
{ 

return true; 
} 


这 就 是 整个 实现 了 。 即 使 有 已 讨论 过 的 那些 限制 ， 它 仍然 是 一 个 高 度 可 移植 的 、 相 当 可 
靠 的 SMI 函 数 的 实现 ， 并 且 在 自己 的 应 用 中 至 少 对 原型 而 言 可 以 马上 使 用 。 以 后 ， 也 可 以 用 
其 他 某 个 实现 ， 因 为 接口 是 相同 的 。 


7.4 System V IPC 


正如 1.1.7 节 所 解释 的 ， 对 消息 、 信 号 量 和 共享 存储 器 来 说 有 两 套 系统 调用 。 比 较 旧 的 一 
套 叫 作 System V IPC (进程 间 通 信 )， 比 较 新 的 一 套 叫 作 POSIX IPC。 本 章 将 对 这 两 套 系 统 调 
用 进行 讨论 ， 首 先是 System V 和 POSIX 的 消息 ， 然 后 是 两 者 的 信号 量 ， 最 后 是 共享 存储 器 。 本 
节 解 释 适用 于 所 有 System V IPC 机 制 的 一 般 概念 ; 之 后 在 7.6 节 将 解释 POSIX IPC 的 一 般 概念 。 


7.4.1 System V IPC 对 象 


有 三 种 类 型 的 System V IPC 对 象 : 消息 队列 、 信 号 量 集 和 共享 存储 器 段 。 它 们 不 是 文件 ， 
甚至 不 是 特殊 文件 ， 而 是 具有 自己 的 命名 方案 、 自 己 的 生存 期 规则 和 自己 的 访问 权限 系统 的 
对 象 。 下 面 是 System V IPC 对 象 的 几 个 主要 特征 : 

* 它们 仅 存在 于 单个 机 器 内 。 它 们 不 能 用 于 跨 网 络 通信 。 

* 它们 的 生存 期 与 内 核 相同 ， 系 统 重启 时 它们 会 被 销毁 。 

。 可 以 使 用 整 型 标识 符 访 问 对 象 ， 在 对 象 的 生存 期 之 内 这 个 标识 符 是 固定 的 。 任 何 知道 此 标 

识 符 的 进程 都 可 直接 用 它 访问 对 象 一 一 不 需要 事先 打开 对 象 。 这 不 同 于 文件 描述 符 ， 后 者 
是 进程 的 特性 ， 当 进程 访问 对 象 时 它 会 消失 。(System V IPC 也 有 关键 字 ， 在 下 一 节 中 对 其 
进行 讲解 。) 

* 因 为 没有 信息 节点 或 路 径 名 ， 所 以 不 能 使 用 传统 文件 和 目录 处 理 系统 调用 ， 如 unlink、 

stat、read 或 write。 

所 有 这 三 种 对 象 都 有 形 如 Xget 和 Xct1 格 式 的 系统 调用 ， 这 里 X 表 示 的 是 msg、sem 或 
shm。 因 此 ，6 个 调用 分 别 为 nsgget、semget、shmget、msgct1、 semct1 和 shmct1。 
当 把 所 讨论 的 内 容 应 用 于 Xget 和 Xct1 的 所 有 三 个 对 象 时 ， 本 书 会 继续 使 用 术语 Xget 和 
Xct1 来 指 “get” 和 “ctl”。 

另外 ， 还 有 5 个 其 他 调用 : msgsnd 和 msgrcv 用 于 发 送 和 接收 消息 ; semop 用 于 操纵 信 
号 量 集 ; shmat 和 smdt 用 于 连接 和 断 开 共享 存储 器 。 


7.4.2 标识 符 、 关 键 字 和 ftok 系 统 调用 


创建 System V IPC 对 象 时 ， 内 核 会 给 标识 符 赋值 ， 因 此 通常 情况 下 系统 每 次 重新 启动 时 ， 
它 都 会 有 不 同 的 值 。 为 了 使 不 同 的 进程 能 够 比较 容易 地 从 需要 共享 的 对 象 中 获得 标识 符 ， 可 
以 用 值 从 来 不 会 改变 的 永久 性 关键 字 。 如 果 对 象 已 经 存在 ， 那 么 当 进 程 用 Xget 创 建 对 象 或 仅 
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用 Xget 从 关键 字 得 到 标识 符 时 ， 进 程 可 以 指定 关键 字 。 然 而 ， 关 键 字 不 能 标识 特殊 对 象 ， 比 
如 用 路 径 名 标识 文件 ， 因 为 此 对 象 只 能 持续 到 下 次 系统 重新 启动 。 下 一 次 ， 同 样 的 关键 字 可 
能 会 用 不 同 的 标识 符 产生 一 个 新 对 象 。 

关键 字 具 有 key_t 类 型 ， 该 类 型 甚至 不 必 是 算术 类 型 ， 尽 管 在 许多 系统 调用 中 它 是 以 算 
术 类 型 使 用 的 ， 因 此 这 是 一 种 安全 的 假设 。 如 果 需 要 指定 其 值 ， 可 以 采用 如 下 方式 简单 地 为 
程序 中 使 用 的 关键 字 定 义 值 : 


#define MSGQ_KEY 1234 
#define SEM_KEY 1235 
#define SHM_KEY1 1236 
#define SHM_KEY2 1237 


之 后 任何 把 关键 字 MSGQ_KEY 当 作 参 数 调用 msgget 的 进程 都 会 得 到 一 个 指向 相同 消息 队列 的 


标识 符 。 
关键 字 的 问题 是 : 需要 一 些 全 面 的 管理 方案 为 它们 赋值 ， 因 为 在 应 用 之 间 会 产生 冲突 。 显 


然 有 冲突 就 无 法 工作 ， 因 此 另 一 抽象 层 人 允许 使 用 ftok 系 统 调用 从 路 径 名 中 产生 一 个 关键 字 。 
ftok ”产生 System V IPC 关 键 字 


#include <sys/ipc.h> 


key_t ftok( 
const char ‘path, /* pathname of existing file */ 


int id /* desired key number */ 


) 
/* Returns key on success or -1 on error (sets errno) */ 





事实 上 ，ftok 能 够 从 同一 路 径 中 产生 许多 关键 字 ; 所 需 的 关键 字 由 id 参数 指定 ， 该 参数 
可 能 会 是 字符 ， 因 为 只 使 用 它 最 低 的 8 位 。 关 键 字 也 不 能 是 零 。 例 如 ， 如 果 应 用 程序 中 需要 4 
个 关键 字 (一 个 消息 队列 、 一 个 信号 量 集 和 两 个 共享 存储 器 段 )， 那 么 可 以 用 单个 路 径 名 (如 
tmp/myappkeys) 和 具有 q、s、m 和 n 值 的 第 二 个 参数 4 次 调用 ftok (或 其 他 4 个 所 需 的 值 )。 
路 径 名 必须 已 经 存在 ， 因 为 Etok 不 能 创建 它 。 

回顾 前 面 的 内 容 ， 可 以 知道 System V IPC 对 象 不 是 文件 而 且 没 有 信息 节点 。 名 字 被 传递 
给 ftok 的 文件 仅 是 为 关键 字 产 生 提供 一 个 全 局 名 。 而 与 文件 的 内 容 无 关 。 尽 管 名 称 保持 一 致 ， 
也 并 不 能 保证 是 否 解 链 文件 和 重新 生成 了 相同 的 关键 字 ， 因 此 当 安 装 应 用 程序 或 第 一 次 运行 
时 ， 必 须 创建 文件 并 且 让 其 放 在 一 边 直 到 印 载 应 用 程序 。 

只 要 路 径 在 相同 的 文件 系统 ( 见 3.2.4 节 ) 中 ， 就 可 以 保证 两 条 不 同 的 路 径 能 够 产生 两 个 
不 同 的 关键 字 。 如 果 担 心 不 同 的 应 用 可 能 会 使 用 相同 的 关键 字 ， 那 么 可 以 在 Xget 调 用 中 使 用 
专门 的 关键 字 IPC_PRIVATE (将 在 7.5.1 节 进一步 解释 )， 这 样 在 根本 不 使 用 ftok 或 专门 关 
键 字 时 可 以 保证 有 唯一 的 ITPC 对 象 。 必 须 以 某 种 方式 公布 这 个 最 后 的 标识 符 以 便 所 有 需要 它 的 
进程 都 能 得 到 它 ; 实现 这 一 点 的 一 种 方法 是 将 其 写 人 一 个 一 些 进程 已 经 知道 其 文件 名 的 文件 。 
但 是 ， 在 大 多 数 情况 下 ， 也 包括 本 书 所 有 的 例子 ， 都 假定 不 会 出 现 ftok 冲 突 。 

总 结 如 下 : 

。 可 以 通过 标识 符 访问 System V IPC 对 象 。 如 何 得 到 标识 符 并 不 重要 一 一 它 可 能 是 exec 的 

一 个 参数 ， 可 以 由 消息 传递 ， 从 文件 读 取 ， 从 系统 调用 (如 msgget) 返回 ,或 其 他 某 

种 方法 获得 。 

。 如 果 需 要 (而 且 通 常会 这 样 )， 可 以 用 一 个 关键 字 指 向 一 个 对 象 ， 关 键 字 与 标识 符 不 同 ， 

即使 在 对 象 被 销毁 或 重新 创建 时 仍 能 保持 不 变 。 
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“* 由 于 管理 关键 字 很 准 ， 所 以 可 以 利用 ftok 从 路 径 名 生成 ， 事 实 上 ， 你 通常 也 会 这 么 做 。 

关键 字 不 唯一 的 可 能 性 很 小 ; 创建 TPC_PRIVATE 对 象 是 一 个 有 可 能 可 行 的 解决 方法 。 

你 可 能 会 问 自己 ,“ 既 然 UNIX 已 经 有 了 一 个 完美 的 包含 路 径 名 和 文件 描述 符 的 机 制 ， 为 
什么 还 要 标识 符 /关键 字 /ftok 成 员 呢 ?” 稍 后 看 一 些 使 用 System V IPC 消 息 的 示例 代码 ， 答 案 
就 更 清楚 了 。 那 时 会 看 到 ， 服 务 器 会 把 客户 端的 消息 队列 看 成 一 个 标识 符 ， 并 立即 使 用 它 返 
回 一 个 消息 ， 没 有 寻找 和 打开 信息 节点 的 开销 ， 这 些 是 open 所 做 的 。 

尽管 如 此 ， 是 否 能 设计 一 个 更 清楚 的 方法 ， 该 方法 更 有 效 且 能 使 文件 系统 的 其 余部 分 更 
加 紧密 地 结合 起 来 。 当 查看 POSIX IPC 消 息 时 会 看 到 这 种 方法 ， 尽 管 它 本 身 有 使 用 路 径 名 方 
式 的 问题 。 

除了 其 复杂 性 和 无 规律 性 外 ，System V IPC 方 法 的 另 一 个 缺点 是 因为 标识 符 不 是 文件 描 
述 符 ， 所 以 不 能 用 select 或 poll ( 见 4.2 节 ) 阻塞 ， 例 如 ， 在 消息 准备 好 以 前 。 我 们 已 经 在 
5.18 节 讲述 了 解决 此 问题 的 一 种 方法 。 

总 之 ， 现 在 System V IPC 命 令 已 经 标准 化 了 ， 不 可 能 再 对 其 作 任何 的 改进 。 


7.4.3 System V IPC 的 所 有 权 和 权限 


只 要 System V IPC 对 象 是 文件 ， 就 可 以 使 用 文件 所 用 的 权限 系统 ， 这 里 不 必 做 过 多 的 解释 。 
但 是 ， 由 于 它们 不 是 文件 ， 所 以 它们 有 自己 的 系统 。 幸 运 的 是 ， 很 多 特性 都 与 文件 的 相同 。 

权限 通常 由 9 位 指定 : 所 有 者 、 组 和 其 他 用 户 所 拥有 的 读 、 写 和 执行 权限 。 然 而 ,“ 执 行 ” 
没有 任何 作用 ， 因 此 没有 使 用 那些 位 。 当 由 Xget 系 统 调用 创建 对 象 时 会 生成 对 象 的 权限 。 以 
后 可 以 使 用 Xct1 系 统 调用 更 改 权限 。 

文件 有 一 个 属 主 用 户 ID 和 属 主 组 ID。System V IPC 对 象 也 有 这 两 个 ， 另 外 还 保存 新 创建 
对 象 的 用 户 ID 和 组 ID。 用 Xct1 可 以 改变 所 有 者 ID ， 不 能 改变 新 建 对象 ID 。 

当 处 理 对 象 时 ， 检 查 权限 的 算法 可 以 使 用 有 效用 户 ID 和 有 效 组 ID ， 就 像 文 件 那样 ， 并 且 
仅 当 不 能 匹配 任何 用 户 ID 和 组 ID 时 才 使 用 “其 他 用 户 ” 权 限 位 。 然 而 ， 有 效用 户 ID 和 有 效 组 
ID 能 匹配 新 建 对 象 ID 或 所 有 者 ID 。 

区 分 开 的 新 建 对 象 ID 和 所 有 者 ID 既 允许 一 个 管理 员 用 户 (如 “dbmsadm”) 成 为 消息 队列 
的 创建 者 ， 也 允许 他 成 为 访问 数据 库 文件 的 数据 库 服务 进程 的 有 效用 户 ID 的 创建 者 。 权 限 稍 
小 的 用 户 (如 “dbmsuser”") 只 能 访问 消息 队列 ， 不 能 访问 文件 。 


struct ipc_perm— System V IPC 权 限 的 结构 


owner user-ID */ 
owner group-ID */ 
creator user-ID */ 
creator group-ID */ 
permission bits */ 





使 用 某 个 Xct1 系 统 调用 获得 或 设置 权限 时 ， 可 以 使 用 如 下 结构 : 


7.4.4 System V IPC 工 具 

因为 System V IPC 对 象 不 是 文件 且 没 有 信息 节点 ， 所 以 不 能 对 它们 使 用 像 un1ink 或 
stat 之 类 的 系统 调用 。 因 此 ， 既 不 能 用 rm 删除 它们 ， 也 不 能 使 用 1s 命 令 列 出 它们 。 然 而 有 
两 个 专门 处 理 System V IPC 对 象 的 命令 : ipcrm 用 于 删除 对 象 ; ipcs 用 于 报告 其 状态 。 查 阅 
[SUS2002] 或 系统 文档 可 以 看 到 这 些 命令 的 各 种 选项 ; 这 里 仅 概述 基本 的 选项 。 

调用 ipcrm 时 ， 可 以 使 用 一 个 或 多 个 如 下 格式 的 参数 对 : 
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-XY 
这 里 的 X 代 表 消 息 队 列 的 q 或 0、 信 号 量 集 S 或 共享 存储 器 段 4。 在 x 代表 q 时 ，Y 代 表 标 识 符 ; 
在 x 代表 Q 时 ，Y 代 表 关键 字 。9 例 如 ， 命 令 

ipcrm -q 50 
删除 了 标识 符 为 50 的 消息 队列 。 在 删除 文件 时 ， 实 际 上 所 做 的 是 从 目录 中 删除 项 ; 信息 节点 
会 保留 ， 直 到 关闭 了 最 后 一 个 指向 它 的 打开 文件 描述 符 ， 所 以 正在 运行 的 进程 不 会 受到 过 多 
的 影响 。 然 而 ， 没 有 为 System V IPC 对 象 指定 这 样 的 行为 ， 对 象 可 能 会 立即 消失 ， 并 对 使 用 
它 的 正在 运行 的 进程 造成 严重 破坏 。 因 此 ，ipcrm 仅 用 作 没 有 负载 时 系统 管理 的 一 部 分 ， 或 
者 已 知 那个 对 象 没有 在 使 用 时 才 使 用 ipcrm。 

在 System V IPC 中 与 1s 功 能 相当 的 是 ipcs。 不 带 参 数 使 用 它 时 ， 显 示 如 下 内 容 : 


IPC status from <running system> as of Wed Mar 12 15:04:06 MST 2003 


T ID KEY MODE OWNER GROUP 
Message Queues: 

a 50 0x1007b8c --rw-rw-rw- marc sysadmin 
Shared Memory: 

m 0 0x500004b7 --rw-r--r-- root root 
m 102 0 --rw-rw-rw- marc sysadmin 

m 103 0 --rw-rw-rw- marc sysadmin 

m 104 0 --rw-rw-rw- marc sysadmin 

m 105 0 -IEwW-IW-IW- marc sysadmin 
Semaphores: 

s 131072 0x1007b84 --ra-ra-ra- marc sysadmin 

s 131073 0 --ra-ra-ra- marc sysadmin 


注意 有 些 关键 字 是 零 。 这 些 是 由 带 有 IPC_PRIVATE 参 数 的 Xget 创 建 的 私有 对 象 ， 而 不 是 
某 个 关键 字 。 当 标识 符 被 直接 传递 给 其 他 进程 (例如 消息 中 的 数据 )， 并 且 其 他 进程 没有 必要 执 
行 自己 的 Xget 时 才 会 这 么 做 。 在 System V 的 SMI 函 数 的 消息 队列 实现 中 会 看 到 这 个 ( 见 7.5.3 节 )。 
( 像 7.4.2 节 中 解释 的 那样 ， 如 果 想 要 确保 对 象 是 唯一 的 ， 那 么 也 可 以 使 用 ITPC_PRIVRTE。) 


7.5 System V 消息 队列 
现在 准备 讲述 System V 消息 队列 的 系统 调用 的 详细 内 容 。 


7.5.1 System V 消息 队列 的 系统 调用 
前 面 已 经 概述 了 msgget 的 功能 ， 下 面 是 其 细节 : 


msgget 一 一 得 到 消息 队列 标识 符 
#include <sys/msg.h> 


int msgget ( 
key_t key, /* key */ 


int flags /* creation flags */ 


ye 
/* Returns identifier or -1 on error (sets errno) */ 





在 7.4 节 中 我 们 对 System V IPC 对 象 进行 了 一 般 性 的 讨论 ，msgget 可 以 得 到 已 存在 的 消息 
队列 的 标识 符 ， 该 消息 队列 的 关键 字 由 第 一 个 参数 给 定 。 如 果 f1ags 参 数 设 置 成 IPC_CREAT 


日 无论 如 何 那 是 标准 。Linux (或 者 可 能 是 GUN) 采用 不 同 的 方式 操作 它 ， 详 细 内 容 见 系统 文档 . 
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标志 ， 那 么 它 就 会 在 队列 不 存在 的 情况 下 创建 它 。 在 这 种 情况 下 ， 权 限 是 从 fl1ags 参 数 的 低 9 
位 中 获得 的 。 创 建 者 和 所 有 者 的 用 户 ID 和 组 ID 从 发 起 msgget 的 进程 的 有 效 ID 中 获得 。 

对 于 权限 位 ， 可 以 像 使 用 open ( 见 2.3 节 ) 一 样 使 用 相同 的 s_ 标 志 。 但 是 要 确认 使 用 的 
是 IPC_CREAT; 不 要 误 用 0_CREAT! 9。 如果 队列 已 经 存在 ， 那 么 使 用 IPC_EXCL 同 样 可 以 使 
msgget 失 败 。 

IPC_PRIVRATE 的 key 参 数 允 许 创建 一 个 与 特殊 关键 字 无 关 的 消息 队列 。 每 次 用 
IPC_PRIVATE (不 需要 IPC_CREAT 标 志 ) 调用 msgget 时 都 会 得 到 不 同 的 队列 。 这 对 那些 
希望 用 自己 的 消息 队列 作 应 答 服 务 器 的 客户 端 进程 来 说 是 理想 的 ;客户 端 进程 把 标识 符 传递 
给 服务 器 ， 服 务 器 随后 利用 它 响应 。 客 户 端 和 服务 器 没有 必要 共享 同一 个 关键 字 ， 这 是 很 困 
难 的 ， 因 为 通常 服务 器 事先 并 不 知道 可 能 会 有 哪些 客户 端 。 

可 以 用 msgct1 控 制 一 个 已 存在 的 队列 : 


msgctl 一 一 控制 消息 队列 
#include <sys/msg.h> 


int msgcetl( 
int msqid, identifier */ 
int cmd, command */ 
struct msqid ds *data /* data for command */ 


Me 
/* Returns 0 on success or -1 on error (sets errno) */ 


struct msqid_ds 一 一 msgctl 的 结构 


struct msqid_ds ( 
struct ipc_perm msg_perm; /* permission structure */ 

msgqnum_t msg_qnum; /* number of messages currently on queue */ 
msglen_t msg_qbytes; /* maximum number of bytes allowed on queue */ 
pid_t msg_lspid; /* process ID of last msgsnd */ 

pid_t msg_lrpid; /* process ID of last msgrcv */ 
time_t msg_stime; /* time of last msgsnd */ 
time_t msg_rtime; /* time of last msgrev */ 
time_t msg_ctime; /* time of last msgct] change */ 

Ve 





下 面 是 cmd 参 数 的 三 个 值 : 

IPC_RMID 移 去 与 msqid 相 关 的 队列 。 有 效用 户 ID 必 须 是 超级 用 户 或 等 于 队列 的 创建 
者 用 户 ID 或 所 有 者 用 户 ID。 可 以 不 使 用 data 参 数 ， 它 可 以 是 NULL。 

IPC_STAT 用 队列 的 信息 填充 data 指 向 的 结构 。 

IPC_SET ”通过 由 data 指 向 的 结构 成 员 来 设置 队列 的 四 个 属性 : 

msg_perm.uid 

msg_perm.gid 

msg_perm.mode 

msg_qbytes 

除了 只 有 超级 用 户 能 提高 msg_qbytes 的 值 外 ， 所 需 权 限 与 TPC_RMID 要 求 的 相同 。 

使 用 msgsnd 和 msgrcv 可 以 分 别 实现 把 消息 放 入 队列 和 从 队列 中 获取 消息 。 


日 为 什么 设计 System V IPC 调 用 的 人 不 和 open 使 用 相同 的 符号 ， 而 是 建立 他 们 自己 的 符号 呢 ? 因为 追 济 到 那 
个 时 期 (20 世纪 70 年 代 中 期 )，open 不 使 用 符号 。 因 此 问题 应 该 是 ， 为 什么 open 不 和 System V IPC 使 用 相 
同 的 符号 呢 ? 因为 那些 符号 都 以 前 组 ITPC_ 开 始 ， 此 外 ， 贝 尔 实验 室 中 主流 的 UNIX 团 队 不 喜欢 IPC 调 用 。 
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msgsnd 一 一 发 送 消息 


#include <sys/msg.h> 


int msgsnd( 
int msqid, /* identifier */ 
const void *msgp, /* message */ 
size_t msgsize, /* size of message */ 
int flags /* flags */ 





); 
/* Returns 0 on success or -1 on error (sets errno) */ 


msgrcy 一 一 接收 消息 


#include <sys/msg.h> 















ssize_t msgrcv( 









int msqid, /* identifier */ 
void *msgp, /* message */ 

size_t mtextsize, /* size of mtext buffer */ 
long msgtype, /* message type requested */ 
int flags /* flags */ 





de 
/* Returns number of bytes placed in mtext or -1 on error (sets errno) */ 


struct msg 一 一 msgsnd 和 msgrcv 的 典型 结构 


struct msg { 
long mtype; /* message type */ 


char mtext [MTEXTSIZE]; /* message text */ 


ve 





可 以 随意 选择 用 于 消息 的 结构 形式 ， 只 要 该 结构 的 第 一 个 成 员 是 用 于 消息 类 型 的 Long 
型 ， 情况 是 这 样 的 ， 当 调用 msgrcv 时 ， 可 以 把 发 送 的 消息 分 类 ， 然 后 规定 想 要 接收 的 消息 
的 类 型 : 

。 如 果 msgrcv 中 msgtype 参 数 是 9， 那么 不 管 类 型 是 什么 ， 得 到 的 都 将 是 队列 中 的 第 一 

个 消息 。 

。 如 果 该 参数 大 于 0， 那 么 得 到 的 就 是 那 种 类 型 的 第 一 个 消息 。 

。 如 果 该 参数 小 于 0， 那 么 得 到 的 将 是 等 于 或 小 于 msgtype 绝 对 值 的 最 低 类 型 的 第 一 个 消 
息 。 这 就 是 说 ， 如 果 在 队列 中 有 类 型 为 5、6 和 17 的 消息 ， 而 且 指 定 的 是 6， 那么 得 到 
的 将 会 是 类 型 5 的 第 一 个 消息 。 

如 果 不 关心 类 型 ， 那 么 发 送 时 可 以 使 用 ! (类 型 必须 为 非 0)， 并 且 将 msgrcv 中 的 
msgtype 参 数 设 为 0。 在 使 用 类 型 时 ， 往 往 需 要 建立 一 个 优先 级 系统 。 多 个 服务 器 和 客户 端 也 
可 以 使 用 一 个 队列 ， 而 且 每 个 客户 端 都 有 自己 的 类 型 编号 ， 但 是 这 种 组 织 事务 的 方法 很 笨拙。 

msgsnd 中 的 msgsize 参 数 仅仅 是 该 结构 中 mtext 成 员 里 的 消息 的 大 小 ， 不 是 包含 
mtype 成 员 的 整个 结构 的 大 小 。 类 似 地 ，msgrcv 返 回 的 是 mtext 成 员 里 的 消息 字 节 数 ， 不 
是 整个 结构 的 大 小 。 如 果 接 收 的 消息 的 大 小 超过 了 mtextsize 参 数 ， 那 么 就 会 产生 错误 ， 除 
非 在 标志 参数 中 指定 了 MSG_NOERROR， 在 这 种 情况 下 会 截 掉 超过 限制 的 消息 ， 而 且 根本 毫 
无 察觉 。 这 通常 不 是 理想 的 方法 。 

如 果 超 过 了 队列 中 消息 编号 的 限制 或 队列 中 的 消息 总 数 ，msgsnd 一 般 会 阻塞 。 或 者 ， 可 
以 在 标志 参数 中 指定 IPC_NOWAIT (0_NONBLOCK 的 System V IPC 版 本 ) 来 返回 -1 并 将 
errno 设 置 成 BAGAIN， 以 使 其 不 阻塞 。( 在 下 一 节 有 更 多 的 限制 。) 

如 果 所 需要 的 消息 不 存在 ，msgrcv 一 般 会 阻塞 。 或 者 ， 可 以 同 msgsnd 一 样 ， 通 过 设置 
IPC_NOWAIT 使 其 不 阻塞 。 因 为 消息 队列 不 使 用 文件 描述 符 ， 所 以 不 能 使 用 select 或 poll， 
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因此 要 尽量 避免 设计 需要 超过 一 个 队列 的 等 待 。 为 了 使 内 容 清 晰 明了 ， 可 以 使 用 单个 队列 代 
替 不 同 的 消息 类 型 。 如 果 必 须 等 待 多 个 队列 ， 那 么 可 以 考虑 用 5.18 中 所 讲 的 技术 。 


7.5.2 System V 消息 队列 的 限制 


下 面 是 很 重要 的 应 用 可 能 强烈 反对 的 一 些 限制 : 

。 队 列 中 所 有 消息 大 小 的 总 数 限制 。 通 过 msqgid_ ae 结构 中 的 wsg qbytes 成 员 ， 可 以 用 

msgct1 系 统 调用 访问 此 限制 。 

。 队 列 中 消息 个 数 的 限制 。 

* 消息 大 小 的 限制 。 

。 队 列 数 的 限制 。 

超过 前 两 个 限制 并 不 一 定 会 出 现 严 重 的 错误 。 正 如 前 一 节 所 讨论 的 那样 ， 可 以 安排 
msgsnd 阻 塞 或 者 返回 一 个 已 达到 限制 的 指示 。 

超过 其 他 三 种 限制 就 肯定 会 产生 错误 ， 并 且 除 了 重新 配置 内 核 之 外 ， 没 有 其 他 的 方法 可 
以 解决 。 虽 然 通过 实验 可 以 相当 容易 地 知道 如 何 限制 大 小 ， 但 是 要 实际 确定 如 何 限制 就 不 那 
么 容易 了 (sysconf 得 不 到 这 些 限制 )。 例如， 我 在 Solaris 中 碰 到 了 40 个 消息 的 限制 ， 但 是 那 
是 所 有 队列 的 消息 数 的 最 大 值 。 在 FreeBSD 上 ， 它 是 20， 但 是 看 起 来 好 像 是 对 每 个 队列 的 限 
制 。 在 Linux 中 没有 限制 。 对 于 消息 大 小 的 最 大 值 ， 在 Solaris 和 FreeBSD 中 ， 可 以 达到 2048 字 
节 ， 在 Linux 中 能 达到 8192 字 节 。9 

在 自己 的 开发 系统 中 ， 重 新 配置 内 核 是 可 以 的 ， 但 是 如 果 想 让 一 个 客户 在 他 自己 的 计算 
机 上 安装 你 的 应 用 程序 的 话 ， 这 可 能 是 不 太 现实 的 。 更 糟糕 的 是 ， 客 户 可 能 有 多 个 使 用 
System V IPC 消 息 队 列 的 应 用 ， 因 此 配置 指令 可 能 会 冲突 。 j 

下 面 是 一 些 实际 的 建议 : 

。 要 使 消息 尽 可 能 简短 一 一 比如 说 ，1024 字 节 或 低 于 此 数 。 如 果 一 定 要 传输 更 多 的 消息 ， 

那么 可 以 采用 共享 存储 器 。 共 享 存储 器 也 避免 了 两 次 大 开销 的 复制 (从 进程 到 内 核 ， 及 

从 内 核 到 其 他 进程 )。 

。 不 要 增加 其 他 的 限制 。 保 持 队 列 的 数量 较 小 ， 并 且 不 要 假定 在 队列 中 可 以 放置 任何 特殊 

数目 的 消息 。 

* 在 应 用 程序 的 安装 期 间 ， 运 行 测试 软件 以 保证 此 限制 是 恰当 的 。 如 果 必 要 的 话 ， 给 客户 

准备 如 何 重新 配置 系统 的 建议 。 


7.5.3 System V 中 SMI 消 息 队 列 的 实现 


消息 队列 系统 调用 实际 上 很 容易 使 用 ， 下 面 将 通过 实现 SMI 接 口 来 说 明 这 一 点 。 在 进行 下 
面 的 内 容 之 前 ， 可 能 需要 重新 复习 一 下 7.3.1 节 ， 该 节 介绍 了 接口 的 内 容 。 
与 7.3.3 节 的 FIFO 消 息 相 比 ， 内 部 的 消息 队列 是 比较 简单 的 : 
typedef struct ( 
SMIENTITY sq_entity; /* entity */ 


int sq qid_server; /* server identifier */ 
int sq qid_client; /* client identifier (not used by server) */ 


char sq_name(SERVER_NAME_MAX]; /* server name */ 
struct client_id sq client; /* client ID */ 
size_t sq msgsize; /* msg size */ 


O 我 使 用 的 Darwin 版 本 是 6.6 的 ， 它 没有 System V 消 息 。 
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struct smi_msg *sq_msg; /* msg buffer */ 
} SMIQ_MSG; 


需要 注意 的 是 ， 当 准备 返回 消息 时 ， 为 了 降低 开销 ， 服 务 器 不 必 保留 每 一 个 客户 端的 消 
息 ， 因 为 跟随 消息 一 起 传送 的 标识 符 能 够 直接 用 来 调用 msgsnd。 实 际 上 ， 服 务 器 甚至 不 需要 
使 用 sq_qid_client 成 员 。 

打开 一 个 SMI 消 息 队 列 也 是 非常 简单 的 : 


SMIQ *smi_open_msg(const char *name, SMIENTITY entity, size_t msgsize) 
t 

SMIQ_MSG *p = NULL; 

char msgname[SERVER_NAME_MAX + 100); 

key_t key; 


ec_null( p = calloc(1, sizeof (SMIQ_MSG)) ) 
p->sq msgsize = msgsize + offsetof (struct smi_msg, smi_data); 
ec_null( p->sq msg = calloc(1, p->sq_msgsize) ) 
p->sq_qid_server = p->sq qid_client = -1; 
p->sq_entity = entity; 
if (strlen(name) >= SERVER_NAME_MAX) { 

errno = ENAMETOOLONG; 

EC_FAIL 
} 
strcpy (p->sq_name, name); 
mkmsg_name_server(p, msgname, sizeof (msgname)); 
(void) close (open (msgname, O_WRONLY | O_CREAT, 0)); 
ec_negl( key = ftok(msgname, 1) ) 
if (p->sq_entity == SMI_SERVER) ( 

if ((p->sq.qid_server = msgget (key, PERMFILE)) != -1) 

(void) msgct1(p->sq_qid_server, IPC_RMID, NULL); 

ec_negl( p->sq_qid_server = msgget (key, IPC_CREAT | PERM_FILE) ) 
} 
else { 

ec_negl( p->sq qid_server = msgget (key, 0) ) 

ec_negl( p->sq qid_client = msgget(IPC_PRIVATE, PERM_FILE) ); 
) 
return (SMIQ *)p; 


EC_CLEANUP_BGN 
if (p != NULL) 
(void) smi_close_msg((SMIQ *)p); 
return NULL; 
EC_CLEANUP_END 
站 
static void mkmsg_name_server(const SMIQ MSG *p, char *msgname, 
size_t msgname_max) 
{ 
snprintf(msgname, msgname_max, */tmp/smimsg-%s*, p->sq_name); 
) 


在 /tmp 目 录 中 为 每 一 个 唯一 的 服务 器 名 使 用 了 一 个 文件 ; 函数 mkmsg_name_server 用 
于 构造 路 径 名 。 如 果 那 个 文件 实际 上 已 经 不 存在 ， 那 么 在 调用 ftok 的 前 一 行 代码 会 创建 它 。 
这 里 我 们 希望 服务 器 能 够 以 一 个 新 队列 开始 ， 这 样 如 果 消 息 队 列 在 创建 之 前 已 经 存在 ， 服 务 器 
则 可 以 清除 它 。( 在 你 自己 的 应 用 中 你 也 许 不 会 那么 友好 一 一 你 会 关心 正在 运行 的 客户 端 在 做 
什么 ， 是否 真正 需要 一 个 新 队列 ， 或 者 想 要 对 已 存在 的 消息 做 更 多 的 操作 而 不 只 是 简单 地 抛弃 
它们 。) 如 果 服 务 器 已 经 开始 工作 ， 客 户 端 就 可 以 访问 服务 器 队列 ， 为 自己 创建 一 个 私有 队列 。 
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下 面 是 smi_close_msg: 


bool smi_close_msg(SMIQ *sqp) 
{ 
SMIQ_MSG *p = (SMIQ_MSG *)sqp; 


if (p->sq entity == SMI_SERVER) { 
char msgname [FILENAME_MAX] ; 


(void)msgct1(p->sq_qid_server, IPC_RMID, NULL); 
mkmsg_name_server(p, msgname, sizeof (msgname)); 
(void) unlink (msgname) ; 

} 

else 
(void)msgct1(p->sq_qid_client, IPC_RMID, NULL); 

free(p->sq_msg) ; 

free(p); 

return true; 

) 


接 下 来 是 smi_send_getaddr_msg 和 smi_send_release_msg: 


bool smi_send_getaddr_msg(SMIQ *sqp, struct client_id *client, 
void **addr) 
{ 
SMIQ_MSG *p = (SMIQ_MSG *)sqp; 





if (p->sq_entity == SMI_SERVER) 
p->sq client = *client; 
‘addr = p->sq_msg; 
return true; 
d 


bool smi_send_release_msg(SMIQ “*sqp) 


t 
SMIQ_MSG *p = (SMIQ_MSG *)sqp; 
int qid_receiver; 


p->sq_msg->smi_mtype = 1; 

if (p->sq_entity == SMI_SERVER) 
qid_receiver = p->sq_client.c_idl: 

else { 
qid_receiver = p->sq qid_server; 
p->sq_msg->smi_client.c_idil = p->sq_qid_client; 





) 

ec_negl( msgsnd(qid_receiver, p->sq msg, 
p->sq_msgsize - sizeof (p->sq_msg->smi_mtype), 0) ) 

return true; 


EC_CLEANUP_BGN 
return false; 

EC_CLEANUP_END 

} 

在 smi_send_release_msg 中 ， 如 果 客 户 端正 在 发 送 ， 则 它 已 经 有 了 服务 器 的 标识 符 ， 
并 且 已 经 把 标识 符 放 到 了 消息 的 私有 队列 中 。 如 果 服务 器 正在 发 送 ， 则 它 会 利用 该 标识 符 从 
SMIQ_MSG 结 构 发 送 ， 该 结构 是 通过 前 面 对 smi_send_getaddr_msg 的 调用 保存 的 。 现 在 
就 能 看 出 为 什么 我 们 把 消息 类 型 放 在 smi_msg 结 构 的 开始 了 : 它 能 够 允许 在 调用 msgsnd 和 
msgrcv 中 直接 使 用 该 结构 。 需 要 注意 ， 向 msgsnd 传 送 的 大 小 也 仅 是 数据 部 分 ， 而 不 是 整个 
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结构 。 
最 后 ， 下 面 是 smi_receive_getaddr_msg 和 smi_receive_release_msg， 这 些 
比 发 送 操作 的 那 对 要 简单 : 
bool smi_receive_getaddr_msg(SMIQ *sqp, void **adar) 
{ 
SMIQ MSG *p = (SMIQ_MSG *)sqp; 
int qid_receiver; 
ssize_t nrcv; 


if (p->sq_entity == SMI_SERVER) 
qid_receiver = p->sq qid_server; 
else 
qid_receiver = p->sq_qid_client: 
ec_negl( nrcv = msgrcev(gid_receiver, p->sq msg, 
p->sq_msgsize - sizeof (p->sq_msg->smi_mtype), 0, 0) ) 
*addr = p->sq_msg; 
return true; 


EC_CLEANUP_BGN 
return false; 

EC_CLEANUP_END 

} 


bool smi_receive_release_msg(SMIQ *sqp) 
{ 

return true; 
} 


在 SMIQ-MSG 结 构 体 中 ， 服 务 器 和 客户 端 手边 都 有 它们 自己 的 队列 标识 符 。 


7.5.4 评价 System V 消 息 队 列 

此 SMI 实 现 阐明 了 System V 消 息 队列 最 好 的 部 分 : 进程 可 以 向 仅 有 标识 符 指定 的 队列 发 送 
消息 ， 没 有 额外 的 系统 调用 访问 队列 的 开销 ， 并 且 不 用 为 保持 消息 是 原子 的 而 费心 。 这 里 虽 
然 看 不 到 ， 但 实际 上 即使 多 个 接收 者 从 同一 个 队列 接收 消息 也 是 没有 问题 的 (对 FIFO 来 说 ， 
它们 是 不 安全 的 )。 

一 个 缺点 是 ， 没 有 充分 地 规定 各 种 限制 条 件 ( 若 规定 了 最 小 值 会 比较 好 )， 并 且 在 运行 时 
查询 也 是 笨拙 的 。 然 而 ， 对 所 有 IPC 的 机 制 而 不 是 套 接 字 的 最 坏 的 实情 是 : 消息 只 能 在 单个 机 
器 里 发 送 。 对 于 今天 的 应 用 来 说 ， 这 种 限制 往往 会 带 来 很 大 的 不 便 。 

本 书 的 第 1 版 曾 提出 过 这 样 一 个 建议 : 

[System V 消 息 队 列 是 ] 复 杂 的 、 文 档 不 完全 的 、 不 可 移植 的 。 应 尽量 避免 应 用 它们 ! 
现在 根据 2004 年 的 实际 情况 重新 考虑 这 个 问题 ， 它 们 看 起 来 不 再 很 复杂 ， 因 为 有 了 套 接 字 、 
线程 和 许多 更 复杂 的 其 他 特征 。 文 档 虽然 仍 不 完全 ， 但 不 再 影响 它们 的 普及 。 它 们 肯定 是 可 
移植 的 一 一 它们 遵从 SUS， 并 且 似 乎 在 所 有 的 主要 系统 中 都 可 以 实现 (希望 不 久 在 Darwin 上 也 
可 以 )， 因 此 ， 只 要 知道 了 它们 的 局 限 性 ， 就 没有 理由 拒绝 使 用 它们 。 


7.6 POSIX IPC 


本 节 讲 述 POSIX IPC 应 用 于 消息 、 信 号 量 和 共享 存储 器 的 一 些 一 般 内 容 ， 此 外 在 7.7 节 、 
7.10 节 和 7.14 节 也 涉及 了 这 些 内 容 。 
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7.6.1 POSIX IPC 历 史 


随 着 POSIX 1003.1b-1993 (缩写 为 POSIX1993 ) 成 为 实时 系统 扩展 的 一 部 分 ，POSI XIPC 
被 引入 进来 。 这 里 描述 的 POSIX 消 息 队列 的 系统 调用 构成 了 POSIX1993 的 消息 传递 选项 ， 而 
且 还 是 POSIX2001 的 可 选项 。 相 反 ，System V IPC 始 终 没 能 成 为 POSIX 的 组 成 部 分 ， 现 在 仍 
托管 在 被 认证 的 Open Group UNIX 系 统 上 。 

历史 上 ，System V IPC 是 非 标准 的 ， 但 却 得 到 了 广泛 应 用 ; 而 POSIX IPC 成 为 标准 (可 选 
用 ) 已 经 10 年 了 ， 但 在 很 多 UNIX 系 统 上 仍 不 可 用 ， 如 著名 的 Linux、FreeBSD 和 Darwin。 在 
理论 上 ，POSIX IPC 比 System V IPC 更 便于 移植 ， 实 际 上 却 恰 恰 相 反 。 

更 糟 的 是 ， 即 使 实现 了 POSIX IPC， 对 关键 的 实时 应 用 来 说 ， 其 效率 仍然 是 不 够 高 的 。 标 
准 对 性 能 水 平 没有 特别 的 要 求 ， 除 了 相 容 性 要 求 外 ， 一 些 OS 经 销 商 对 资源 不 提出 任何 目标 。 

因此 ， 就 像 即 将 看 到 的 ，POSIX IPC 系 统 调用 在 许多 方面 都 比 System V IPC 的 强 ， 功 能 更 
强大 ， 设 计 更 明确 ， 但 在 应 用 中 你 可 能 不 使 用 它们 。 


7.6.2 POSIX IPC 命 名 


回顾 7.4.2 节 可 知 ，System V IPC 使 用 关键 字 指 定 对 象 ， 并 增加 了 一 个 用 ftok 系 统 调用 从 
路 径 名 生成 关键 字 的 便捷 方案 。POSIX IPC 使 用 了 一 个 更 加 简单 的 方案 ， 使 用 名 字 (FER) 
代替 关键 字 。 

名 字 必 须 和 路 径 名 遵循 相同 的 规则 ， 标 准 要 求 如 果 名 字 以 斜 线 开头 ， 那 么 所 有 参考 该 名 
字 的 东西 所 指 的 都 是 同一 个 对 象 。 如 果 名 字 没有 以 斜 线 开 头 ， 则 没有 那样 的 要 求 ， 但 这 种 方 
法 有 一 些 问题 : 

* 并 没有 要 求 具有 特定 名 字 的 文件 必须 出 现在 文件 系统 中 。POSIX IPC 对 象 ， 如 System V IPC 

对 象 ， 并 不 是 文件 。 为 了 效率 才 这 样 的 一 文件 系统 代表 许多 庞大 的 体系 ，POSIX IPC 的 

快速 实现 是 不 使 用 它 的 ， 例 如 ， 使 用 内 存 中 的 哈 希 表 查找 对 象 而 不 使 用 文件 系统 目录 树 。 

* 在 大 多 数 UNIX 系 统 中 ， 一 般 用 户 不 能 在 根 目录 下 进行 写 操作 ， 因 为 如 果实 现 确实 创建 

了 符合 该 名 字 的 文件 ， 可 能 会 产生 问题 。 解 决 该 问题 的 一 个 可 能 的 方法 是 管理 员 为 每 个 

一 般 应 用 至 少 首先 建立 一 个 子 目录 (例如 /ipc)， 但 请 看 下 一 点 。 

。 和 斜 线 的 解释 与 第 一 个 不 同 ， 它 是 依赖 于 实现 的 。 有 些 实现 可 能 会 把 它们 当 作 一 般 字符 ， 

有 些 可 能 会 把 它们 当 作 目 录 分 隔 符 , 还 有 一 些 (如 Solaris) 可 能 会 完全 禁止 它们 。 因 此 ， 

为 了 便于 移植 ， 除 了 开头 的 斜 线 外 ， 不 应 该 再 有 其 他 的 斜 线 了 。 这 个 规则 排除 了 上 一 点 

的 解决 方法 。 

那么 ， 怎 么 做 呢 ? 可 以 写 一 段 小 的 初始 化 程序 ， 该 程序 仅 创建 应 用 所 需要 的 所 有 对 象 
(使 用 的 名 字 中 仅 有 开头 的 斜 线 ) 并 设置 它 ， 以 便 有 效用 户 ID 是 超级 用 户 或 无 论 什 么 用 户 都 可 
以 写 入 根 目录 。 开 发 时 要 么 使 用 初始 化 程序 ， 要 么 运行 不 创建 实际 文件 的 系统 。 本 书 的 例子 
是 在 Solaris 上 开发 的 ， 该 系统 并 不 创建 文件 ， 因 此 显示 在 根 目录 中 的 路 径 名 并 不 是 真 的 在 那 
儿 ， 并 且 所 有 的 工作 都 很 正常 。 

一 个 可 选择 的 方法 是 为 各 种 系统 定义 (#ifdef) 自己 的 代码 , 使 用 系统 支持 的 命名 方案 。 
但 这 个 方法 通常 不 好 ， 因 为 无 论 包括 系统 多 么 小 的 集合 ， 毫 无 疑问 总 有 一 天 都 会 不 足 ， 然 后 
必须 更 改 代码 以 便 包含 新 系统 。 新 修改 的 代码 必须 返回 来 工作 在 基础 代码 上 ， 不 可 避免 地 会 
带 来 支持 和 维护 上 令 人 头疼 的 事 。 

然而 另外 一 个 想法 是 把 POSIX IPC 命 名 方式 放 在 运行 时 读 的 配置 文件 中 。 然 后 选择 合适 的 
方案 便 成 了 安装 时 的 一 个 选项 ， 而 不 再 是 编译 时 的 选项 了 。 这 可 能 是 可 以 的 ， 但 仍 增加 了 一 
个 复杂 应 用 程序 不 能 正确 安装 的 许多 方式 ， 这 是 不 希望 的 。 毕 竟 使 用 关键 字 和 ftok 的 System 
V IPC 方 案 并 不 那么 笨拙 。 
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7.6.3 POSIX IPC 特征 检测 宏 

像 1.5.4 节 详细 解释 的 那样 ，SUS 和 早期 的 POSIX 标 准 都 提供 了 宏 ， 在 编译 期 间 使 用 该 宏 可 
以 检查 可 选 的 特征 项 是 存在 还 是 不 存在 ， 或 者 是 否 必须 编写 运行 时 检测 代码 。 不 幸 的 是 ， 如 所 
希望 的 那样 准确 实现 这 些 宏 的 系统 通常 有 可 选 的 特征 项 (这 意味 着 可 能 已 经 跳 过 了 读 测 试 )， 而 
没有 可 选 特 征 的 系统 也 不 能 正确 地 实现 这 些 宏 。 因 此 ， 在 实际 中 ， 测 试 这 些 宏 并 没有 带 来 方便 。 

但 是 ， 如 果 想 尝试 一 下 ， 就 仔细 地 阅读 第 1 章 所 叙述 的 关于 它们 通常 怎样 工作 的 内 容 ， 然 
后 参考 [SUS2002] 或 相关 的 POSIX 标 准 以 查看 哪些 特定 宏 需 要 检测 。 

本 书 的 例子 中 通常 不 使 用 宏 测 试 。 它 们 在 支持 可 选 特征 的 系统 上 编译 和 运行 ， 在 其 他 系 
统 上 无 法 编译 。 


7.6.4 POSIX IPCLA 

对 System V 而 言 ， 最 方便 的 工具 是 ipcs 和 ipcrm (7.4.44). POSIX IPC 系 统 没有 任 
何 工具 ， 因 此 本 节 很 短 。 如 果 想 检测 错误 应 用 遗留 下 的 消息 队列 、 信 号 量 或 共享 存储 器 段 的 
一 些 东西 ， 就 太 精 了 。 


7.7 POSIX# BRA 
本 节 将 解释 POSIX 消 息 队列 ， 并 说 明 如 何 使 用 它们 实现 SMI。 


7.7.1 POSIX 消 息 队列 的 系统 调用 
事实 证 明 ， 名 字 问 题 是 使 用 POSIX 消 息 队列 唯一 的 真正 困难 。 其 余 的 都 很 容易 。 首 先 ， 


mq_open 可 以 打开 消息 队列 。 

尽管 mq_open 创 建 的 对 象 不 能 轻易 地 被 当 作 文件 对 待 ， 而 且 它 返回 的 是 消息 队列 描述 符 ， 
而 不 是 文件 描述 符 ， 但 mq_open 和 open 的 行为 还 是 相似 的 。 遗 憾 的 是 ， 不 能 够 对 消息 队列 
描述 符 使 用 select 或 po11， 这 和 在 System V 消 息 队 列 中 见 到 的 缺点 一 样 。 尽 管 如 此 ， 当 消 
息 可 用 时 ， 可 以 使 用 信号 进行 提示 ; 见 下 面 的 mq_notify。 


mq_open 一 一 打开 消息 队列 
#include <mqueue.h> 
mqd_t mq_open( 


const char *name, /* POSIX IPC name */ 
int flags ‘ /* flags (excluding lo, CREAT) */ 


ve 
/* Returns message-queue descriptor or -1 on error (sets errno) */ 


mqd_t mq_open( 
const char ‘name, /* POSIX IPC name */ 
int flags, /* flags (including O_CREAT) */ 
mode_t perms, /* permissions */ 
struct mq attr ‘attr /* attributes (or NULL) */ 


i 
/* Returns message-queue descriptor or -1 on error (sets errno) */ 
struct mq_attr 一 一 mq_open，mq_getattr 和 mq_setattr 的 结构 


struct mqattr { 
long mq_flags; /* flags */ 
long mq_maxmsg; /* max number of messages */ 
long mq_msgsize; /* max message size */ 
long mq_curmsgs; /* number of messages currently queued */ 


vi 
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f1ags 参 数 使 用 的 宏和 open (fie, O_CREAT) 使 用 的 一 样 。 并 不 像 msgget 使 用 的 宏 
(如 IPC_CREAT) 那么 特殊 : 

。 必 须 指定 0_RDONLY、0_WRONLY 或 0_RDWR 中 的 某 一 个 ， 这 取决 于 是 想 只 接收 消息 ， 

还 是 只 发 送 消息 ， 或 者 两 者 都 要 。 

。 如 果 想 要 在 队列 不 存在 时 ， 创 建 队列 ， 那 么 可 以 指定 0_CREAT。 在 这 种 情况 下 ， 要 提 
供 4 个 参数 ， 就 像 对 照 表 中 的 第 二 个 表 所 示 的 那样 。 

。 如 果 想 要 在 队列 已 经 存在 时 函数 失效 ， 那 么 指定 0_EXCL。 

* 如 果 想 消息 队列 描述 符 非 阻塞 ， 那 么 指定 O_NONBLOCK， 这 意味 着 如 果 队 列 满 或 空 ， 
mgq_send 和 mqg_receive 会 各 自 返回 - 1， 并 将 errno 设 定 为 BAGRAIN。 默 认 行为 是 
阻塞 。 

当 设 定 了 0_CREAT， 并 确实 创建 了 队列 时 ，perms 参 数 的 解释 和 对 文件 或 System V 消 息 
队列 的 权限 相似 ， 带 有 通常 的 S_ 标 志 ( 见 2.3 节 )。 读 权限 和 写 权限 是 指 各 自 接收 和 发 送 消息 
的 能 力 ， 而 执行 权限 并 不 代表 任何 东西 。 和 文件 一 样 ， 队 列 也 有 用 户 ID 和 组 ID ， 而 且 可 以 用 
创建 队列 的 进程 的 有 效 ID 设 置 它们 。 随 后 有 效用 户 ID 和 有 效 组 ID 的 所 有 者 、 组 和 其 他 用 户 位 
的 相互 作用 和 文件 是 一 样 的 。 

同样 ， 如 果 规 定 了 O_CRERAT， 创 建 了 队列 ， 并 且 attr 参 数 是 非 NULL ， 那 么 mq_maxmsg 
和 mq_msgsize 这 两 个 属性 由 所 提供 的 mq_attr 结 构 设置 。 这 是 队列 能 够 容纳 的 最 大 消息 个 
数 和 单个 消息 大 小 的 最 大 值 。 标 准 并 没有 为 这 两 个 属性 单独 指定 限制 ， 但 如 果 没 有 足够 的 空 
间 ，mq_open 将 返回 -1， 并 把 errno 设 置 为 ENOSPC。 大 多 数 的 实现 用 链表 实现 队列 ， 因 此 
不 管 数 多 大 ，mq_open 都 不 会 用 光 空间 ， 因 为 新 队列 是 空 的 。 如 果 attr 和 参数 是 NULL， 这 两 
个 属性 会 被 设置 成 具体 实现 定义 的 值 。 

如 果 在 读 前 面 几 段 时 ， 你 继续 认为 nq_open 和 open 完 全 相同 ， 那 么 只 要 假定 它 返 回 的 不 
是 文件 描述 符 ， 可 能 就 是 对 的 。 

使 用 mq_close 关 闭 打开 的 消息 队列 : 


mq_close 一 一 关闭 消息 队列 


#include <mqueue.h> 


int mq_close( i 
mqd. mgd /* message-queue descriptor */ 


/* Returns zero on success or -1 on error (sets errno) */ 





和 System V 消 息 队 列 一 样 ，POSIX 消 息 队列 会 持续 存在 直到 它们 被 移 去 或 内 核 重新 启动 。 
可 以 利用 一 个 unlink 那 样 的 调用 移 去 POSIX 消 息 队列 : 


mq_unlink 一 一 删除 消息 队列 


#include <mqueue.h> 


int mq_unlink( 
const char *name /* POSIX IPC name */ 


; 
/* Returns 0 on success or -1 on error (sets errno) */ 





像 unlink 一 样 ，mg_1ink 会 使 名 字 马 上 消失 ， 但 队列 的 实际 删除 被 延迟 了 ， 直 到 关闭 
了 所 有 打开 的 消息 队列 描述 符 之 后 才能 删除 队列 。( 回想 System V 消 息 队列 ， 使 用 msgct1 删 
除 队列 是 立刻 进行 的 ， 但 可 能 会 中 断 。 ) 因此 ， 如 果 需 要 ， 一 旦 所 有 需要 队列 的 进程 已 经 打开 
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了 它 ， 便 可 以 使 用 mq_unlink， 就 像 有 时 处 理 临时 文件 那样 。 
好 了 ， 准 备 好 发 送 消息 了 吗 ? 可 以 调用 mq_send 来 发 送 消息 ， 你 可 能 已 经 猜 到 了 : 


mq_send 一 一 发 送 消息 


#include <mqueue.h> 


int mq_send( 
mgd_t mad, /* message-queue descriptor */ 


const char *msg, /* message */ 
size_t msgsize, /* size of message */ 
unsigned priority /* priority */ 


3 
/* Returns 0 on success or -1 on error (sets errno) */ 





mq_send 把 msgsize 大 小 的 消息 放置 在 队列 上 ， 该 消息 被 定位 在 所 有 优先 级 
(priority) 较 低 的 消息 的 前 面 ， 但 在 具有 相同 priority 的 消息 的 后 面 ( 换 句 话说 ， 就 像 
所 期 望 的 那样 )。 优 先 级 至 少 从 0 到 31; 可 以 使 用 sysconf ( 见 1.5.5 节 ) 检索 实际 的 最 大 值 。 

如 上 所 讲 ， 如 果 队 列 是 满 的 ， 那 么 mq_send 会 阻塞 ， 除 非 设 置 了 0_NONBLOCK 标 志 。 

接收 消息 的 调用 当然 是 mq_receive: 


mq_receive 一 一 接收 消息 
#include <mqueue.h> 


ssize_t mq_receive( 
mqd_t mqd, /* message-queue descriptor */ 
char *msg, /* message buffer */ 
size_t msgsize, /* size of message buffer */ 
unsigned *priorityp /* returned priority or NULL */ 


de 
/* Returns size of message or -1 on error (sets errno) */ 





mq_receive 获 得 最 高 优先 级 消息 中 时 间 最 和 久 的 那个 ， 因 为 定义 了 mq_send 的 方式 ， 所 
以 可 以 说 成 是 队列 中 的 第 一 个 消息 。 

msgsize 参 数 有 点 棘手 : 可 能 和 你 所 期 望 的 一 样 ， 它 是 由 msg 参 数 指向 的 缓冲 区 的 大 小 ， 
但 它 必 须 至 少 和 mq_msgsize 属 性 大 小 一 样 ( 见 上 面 的 mq_open)， 否 则 mq_receive 将 失 
败 ， 即 使 最 前 面 的 消息 可 以 小 得 足以 满足 和 要求。 这 确实 是 一 个 极 好 的 设计 选择 : 能 立即 捕获 
非常 小 的 缓 促 区 的 问题 ， 不 需要 用 恰好 正确 的 测试 数据 来 揭露 漏洞 。 返 回 值 是 接收 到 的 消息 
的 实际 大 小 。 

如 果 priorityp 和 参数 是 非 NULL 的 ， 它 会 获得 接收 到 的 消息 的 优先 级 。 没 有 办 法 来 恰当 
地 查询 消息 ， 只 能 从 队列 中 移 去 接收 到 的 消息 。 如 果 队 列 是 空 的 ，mq_receive 会 阻塞 ， 除 
非 设置 了 oO_NONBLOCK。mq_send 和 mq_receive 的 变 体 允 许 被 阻塞 的 调用 超时 : 


mq_timedsend 一 一 用 timeout 发 送 消息 


#include <mqueue.h> 
#include <time.h> 


int mq_timedsend( 
mqd_t mad, /* message-queue descriptor */ 
const char ‘msg, /* message */ 
size_t msgsize, /* size of message */ 
unsigned priority, /* priority */ 
const struct timespec *tmout /* timeout */ 





) 
/* Returns 0 on success or -1 on error (sets errno) */ 
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mq_timedreceive 一 一 用 timeout 接 收 消息 


#include <mqueue.h> 
#include <time.h> 


ssize_t mq_timedreceive( 


/* message-queue descriptor */ 
/* message buffer */ 

size_t msgsize, /* size of message buffer */ 
unsigned *priorityp, /* returned priority or NULL */ 
const struct timespec *tmout /* timeout */ 


Te 
/* Returns size of message or -1 on error (sets errno) */ 





仅 当 调用 发 生 了 阻塞 而 且 清 除了 o_NONBLOCK 时 ， 超 时 才 会 起 作用 。 当 超时 时 间 到 时 ， 
函数 会 返回 - 1， 同 时 将 errno 设 置 为 ETIMEDOUT。 这 两 个 函数 是 超时 选项 (_POSIX_ 
TIMEOUTS) 的 一 部 分 ， 也 是 SUS3 中 新 增 的 内 容 。 

前 面 说 过 ， 对 于 一 个 以 上 的 消息 队列 或 消息 队列 与 其 他 会 阻塞 的 东西 (诸如 终端 或 网 络 
连接 ) 的 结合 来 说 ， 处 理 起 来 会 很 困难 ， 因 为 不 能 够 使 用 select 或 Pol1 测 试 消息 队列 描述 
符 。 尽 管 如 此 ， 当 消息 到 达 时 ， 可 以 安排 使 用 信号 进行 通知 ， 然 后 调用 mq_receive， 不 必 
担心 阻塞 。( 另 一 个 解决 方法 见 5.18 节 。) 使 用 mq_notify 设 置 。 


mq_notify 一 一 注册 或 注销 消息 通知 
#include <mqueue.h> 
int mq notify( 


mqd_t mqd, /* message-queue descriptor */ 
const struct sigevent *ep /* notification */ 


); 
/* Returns 0 on success or -1 on error (sets errno) */ 





对 于 注册 的 进程 或 线程 ， 当 消息 到 达 mqd 指 派 的 空 队 列 时 ， 它 会 得 到 一 个 信号 ， 除 非 一 
个 或 多 个 进程 或 线程 已 经 在 mq_receive 中 阻塞 ， 此 时 其 中 的 一 个 mnq_receive 会 返回 。 

仅 可 以 注册 一 个 进程 或 线程 ; 试图 注册 第 二 个 进程 或 线程 会 导致 错误 。 当 信号 被 发 出 或 
当 调 用 第 二 个 参数 为 NULL 的 mq_notify 时 ， 进 程 或 线程 会 成 为 未 注册 的 。 

非 空 队列 中 没有 消息 到 达 的 通知 ， 因 此 mq_notify 单 独 使 用 时 并 不 能 保证 每 次 消息 到 达 
时 ， 进 程 都 会 得 到 一 个 信和 号。 例如 ， 当 消息 到 达 空 队列 时 ， 它 可 能 会 得 到 一 个 信号 ， 然 而 在 
接收 第 一 个 消息 前 ， 第 二 个 消息 可 能 已 经 到 达 了 ， 此 时 就 不 会 引发 通知 了 ， 因 为 队列 不 是 空 
的 。 因 此 ， 应 用 需要 做 如 下 的 一 些 工作 : 

。 调 用 mq_notify 之 后 ， 带 有 0_NONBLOCK 设 置 重复 调用 mq_receive， 直 到 队列 为 空 。 

。 当 信号 到 达 时 ， 立 即 再 次 调用 mg_notify， 然 后 进行 上 一 步骤 的 操作 。 

发 送 了 什么 样 的 信号 以 及 通知 的 其 他 属性 都 由 sigevent 结 构 传递 给 mq_notify 的 内 容 
决定 ， 如 9.5.6 节 所 解释 的 那样 。 

最 后 ， 得 到 并 设置 消息 队列 的 属性 : 


mq_getattr 一 一 得 到 消息 队列 属性 
#include <mqueue.h> 
int mq_getattr( 


mqd_t mad, /* message-queue descriptor */ 
struct mqattr *attr /* attributes */ 


ve 
/* Returns 0 on success or -1 on error (sets errno) */ 
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mq_setattr 一 一 设置 消息 队列 属性 
#include <mqueue.h> 


int mq_setattr( 
mqd_t mad, /* message-queue descriptor */ 
const struct mq attr *attr, /* new attributes */ 
struct mq attr ‘oldattr /* old attributes if not NULL */ 


) 
/* Returns 0 on success or -1 on error (sets errno) */ 





mq_getattr 根 据 队列 的 当前 状态 填充 该 结构 (和 mq_open 一 起 被 显示 )。 最 有 用 的 属 
性 可 能 是 成 员 mq_curmsgs ， 它 包含 了 队列 中 消息 的 当前 数量 。 

mq_setattr 用 于 设置 或 清除 mq_f1ags 成 员 中 的 0_NONBLOCK 标 志 ; 依据 标准 ， 它 对 
其 他 任何 标志 都 没有 影响 。( 实现 中 可 能 要 设置 一 些 其 他 的 不 可 移植 的 标志 。) 因此 ， 对 
0_NONBLOCK 标 志 ， 可 以 在 消息 队列 描述 符 上 使 用 mq_setattr， 就 如 对 文件 描述 符 使 用 
fcnt1。 如 果 oldattr 非 NULL， 则 可 用 它 来 获得 返回 的 旧 属 性 。 


7.7.2 POSIX 消息 队列 的 SMI 实 现 


现在 ,来 看 SMI 函 数 的 第 三 个 实现 。 首先， 下 面 是 一 个 内 部 消息 队列 ， 其 几乎 和 FIFO 中 
的 一 样 ， 因 为 它们 处 理 的 问题 都 是 相似 的 : 


#define MAX_CLIENTS 20 


typedef struct { 


SMIENTITY sq_entity; /* entity */ 

mqd_t sq_mqd_server; /* server message-queue descriptor */ 

char sq_name[SERVER_NAME_MAX]; /* server name */ 

struct client_info { /* Client uses only sqL_clients[0] */ 
mqd_t cl_mqd; /* client message-queue descriptor */ 
pid_t cl_pid; /* client process ID */ 

} sq clients (MAX_CLIENTS] ; 

struct client_id sq client; /* client ID */ 

size_t sq_msgsize; /* msg size */ 

struct smi_msg *sq msg; /* msg buffer */ 

} SMIQ_MQ; 


和 FIFO 一 样 ， 为 了 避免 每 个 消息 都 打开 一 个 客户 端 消 息 队列 的 开销 ， 服 务 器 将 跟踪 每 个 
它 知道 的 客户 端 ， 而 且 对 每 个 已 经 打开 的 队列 仅 查 找 已 经 保存 的 消息 队列 描述 符 。 在 许多 实 
际 的 服务 器 中 ， 这 并 不 真 的 是 一 个 负担 ， 因 为 无 论 如 何 它 都 几乎 总 是 想 要 跟踪 客户 端 。 客户 
端 只 用 数组 的 第 一 个 元 素 存 储 它 自己 的 消息 队列 描述 符 ， 这 里 我 们 不 考虑 所 浪费 的 空间 。 

有 两 个 函数 可 以 把 SMI 服 务 器 名 和 客户 端 进程 ID 转 换 成 POSIX IPC 名 : 


static void make_mq_name_server(const SMIQ_ MQ *p, char *mgname, 
size_t mgqname_max) 
{ 
snprintf(mqname, mqname_max, */smimq-sts*, p->sq_ name); 
} 


static void make_mq name_client (pid_t pid, char *mqname, 
size_t mqname_max) $ 
{ 
snprintf (mqname, mqname_max, */smimq-c%1d", pid); 
J 
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这 些 名 字 看 起 来 好 像 是 在 根 目录 下 ， 但 在 Solaris 中 它们 就 不 在 根 目录 下 ， 如 7.6.2 中 解释 


的 那样 。 
接 下 来 介绍 一 个 服务 器 从 客户 端 进程 ID 获得 客户 消息 队列 描述 符 的 函数 ， 该 进程 ID 是 客 


户 端 在 消息 中 发 送 给 服务 器 的 : 


static mqd_t get_client_mqd(SMIQ MQ *p, pid_t pid) 
{ 

int i, avail = -1; 

char mqname [SERVER_NAME MAX + 100]; 


for (i = 0; i < MAX_CLIENTS; i++) { 
if (p->sq_clients[i].cl_pid == pid) 
return p->sq_clients[i] .cl_mqd; 
if (avail == -1 && p->sqclients[i].cl_pid 
avail = i; 





) 

errno = ECONNREFUSED; 

ec_negl( avail ) 

p->sq_clients(avail].cl_pid = pid; 

make_mq_name_client(pid, mqname, sizeof (mqname) ); 

ec_negl( p->sq_clients[avail].cl_mqd = mq_open(mqname, O_WRONLY) ) 
return p->sq.clients (avail) .cl_mqd; 


EC_CLEANUP_BGN 
return (mqd_t)-1; 

EC_CLEANUP_END 

} 


该 函数 首先 在 数组 中 搜索 并 查看 是 否 已 经 发 现 了 客户 端 ， 在 此 情况 下 ， 它 已 经 有 了 消息 
队列 描述 符 。 如 果 没 有 ， 它 将 为 写 操作 打开 队列 ， 并 为 下 次 操作 保存 该 描述 符 。 

现在 准备 讲述 第 一 个 SMI 函 数 一 —smi_open_mq: 

static pid_t my_pid; 


SMIQ *smi_open_mq(const char *name, SMIENTITY entity, size_t msgsize) 
cf 

SMIQ_MQ *p = NULL; 

char mqname (SERVER_NAME_MAX + 100]; 

struct mq attr attr = (0); 


my_pid = getpid(); 
ec_null( p = calloc(1, sizeof(SMIQ_MQ)) ) 
P->sa_msgsize = msgsize + offsetof (struct smi_msg, smi_data); 
ec_null( p->sq msg = calloc(1, p->sq_msgsize) ) 
p->sq_entity = entity; 
p->sq_mqd_server = p->sq_clients[0].cl_mqd = (mqd_t)-1; 
if (strlen(name) >= SERVER_NAME_MAX) { 
errno = ENAMETOOLONG; 
EC_FAIL 





} 
strcpy (p->sq_name, name); 
make_mq_name_server(p, mqname, sizeof (mqname)); 
attr.mq maxmsg = 100; 
attr.mq msgsize = p->sq msgsize; 
if (p->sq_entity == SMI_SERVER) { 
if ( mq unlink (mqname) == -1) 
ec_cmp( errno, ENOSYS ) 
ec_negl( p->sq_mqd_server = mq_open(mqname, O_RDONLY | O_CREAT, 
PERM_FILE, &attr) ) 
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) 

else { 
ec_negl( p->sq_mqd_server = mq_open (mqname, O_WRONLY) ) 
make_mq_name_client (my_pid, mqname, sizeof (mgname)); 
ec_negl( p->sq_clients[0].cl_mgd = mq_open(mgname, 

O_RDONLY | O_CREAT, PERM_FILE, &attr) ) 
) 
return (SMIQ *)p; 


EC_CLEANUP_BGN 
if (p NULL) 
(void) smi_close_mq((SMIQ *)p); 
return NULL; 
EC_CLEANUP_END 
) 
初始 化 内 部 SMI 队 列 之 后 ， 利 用 mg_attz 结 构 的 两 个 参数 来 初始 化 : 一 个 是 参数 要 满足 
队列 中 只 能 有 100 个 消息 ， 另 一 个 参数 是 被 传递 的 消息 的 大 小 ， 它 是 mq_attr 的 第 三 个 参数 。 
然后 如 果 是 服务 器 ， 会 抛弃 所 有 现存 的 服务 器 队列 ， 接 着 创建 新 的 服务 器 队列 。 不 必 为 每 个 
客户 端 都 做 这 个 事情 ， 尽 管 也 许 应 该 这 样 ， 这 是 因为 客户 端的 进程 ID 被 戏 入 到 了 队列 名 中 ， 
而 不 可 能 重新 被 使 用 。 
如 下 的 关闭 函数 可 以 完成 所 期 望 的 工作 : 


bool smi_close_mq(SMIQ *sqp) 
{ 





SMIQ_MQ *p = (SMIQ_MQ *)sqp; 
char msgname(SERVER_NAME_MAX + 100]; 


if (p->sq_entity == SMI_SERVER) { 
make_mq_name_server(p, msgname, sizeof (msgname) ) ; 
(void) mq_close (p->sq_mqd_server) ; 
(void) mq_unlink (msgname) ; 

) 

else { 
make_mq_name_client(my_pid, msgname, sizeof (msgname) ) ; 
(void) mq_close (p->sq_mqd_server) ; 
(void) mq_unlink (msgname) ; 

) 

free(p->sq_msg) : 

free(p); 

return true; 

) 


接 下 来 介绍 smi_send_getaddr_mq 及 smi_send_release_md: 


bool smi_send_getaddr_mq(SMIQ *sqp, struct client_id ‘client, 
void **addr) 
{ 
SMIQ_MQ *p = (SMIQ_MQ *)sqp; 


if (p->sq_entity == SMI_SERVER) 
p->sq_client = ‘client; 

‘addr = p->sq msg; 

return true; 





F 


bool smi_send_release_mq(SMIQ *sqp) 
{ 
SMIQ_MQ *p = (SMIQ_MQ *)sap; 
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mgd_t mgd_receiver; 
if (p->sq_entity == SMI_SERVER) 

ec_negl( mgd_receiver = get_client_mgd(p, p->sq_client.c_idl) ) 
else { 

mqd_receiver = p->sq_mqd_server; 

p->sq_msg->smi_client.c_idi = my_pid; 
) 
ec_negl( mq_send(mgd_receiver, (const char *)p->sq msg, 

p->sa_msgsize, 0) ) 

return true; 


EC_CLEANUP_BGN 


return false; 


EC_CLEANUP_END 


Es 


与 前 面 的 FIFO 和 System V 消 息 队 列 一 样 ，smi_send_getaddr_mg 仅 保存 客户 端 ID 
(如 果 服 务 器 调用 它 ) 以 及 返回 缓冲 区 地 址 。 真 正 的 工作 是 在 smi_send_release_mq 中 完 
成 的 。 服务 器 调用 查找 函数 get_c1lient_mqd 获 得 消息 队列 描述 符 。 其 参数 通过 
smi_send_getaddr_mq 保 存在 SMIQ_MQ 结 构 中 。 

客户 端 已 经 拥有 了 服务 器 的 描述 符 ， 而 且 把 进程 ID 放 到 了 消息 中 。( 消息 队列 描述 符 不 能 
在 进程 间 传 递 ， 而 System V 中 消息 队列 的 标识 符 却 可 以 。) 

接收 方 的 一 对 函数 更 简单 ， 因 为 接收 方 已 经 拥有 了 指向 消息 队列 的 描述 符 : 


bool smi_receive_getaddr_mq(SMIQ *sqp, void **addr) 


{ 


SMIQ_MQ *p = (SMIQ_MQ *)sqp; 
mqd_t mqd_receiver; 
ssize_t nrcv; 


if (p->sq_entity == SMI_SERVER) 
mqd_receiver = p->sq mqd_server; 
else 
mgd_receiver = p->sq_clients [0] .cl_mad; 
ec_negi( nrcv = mq_receive(mqd_receiver, (char *)p->sq msg, 
p->sq.msgsize, NULL) ) d 
‘addr = p->sq_msg: 
return true; 


EC_CLEANUP_BGN 


return false; 


EC_CLEANUP_END 


$ 


bool smi_receive_release_mq(SMIQ *sqp) 


{ 


} 


return true; 


7.7.3 评价 POSIX 消息 队列 


POSIX 消 息 队列 系统 调用 的 接口 比 System V 调 用 的 更 加 清楚 明了 ， 且 更 容易 与 UNIX 的 其 
他 部 分 结合 ， 但 它们 依然 使 用 自己 的 描述 符 而 不 是 文件 描述 符 ， 因 此 不 能 使 用 select 和 
poll. 为 了 补救 ,有 一 个 通知 特征 ， 但 是 在 第 9 章 会 看 到 ， 它 使 用 起 来 很 困难 ， 因 为 它 是 以 
很 难 使 用 的 信号 为 基础 的 。 
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POSIX 消 息 队 列 (实际 上 是 所 有 的 POSIX IPC) 最 主要 的 问题 是 不 能 被 广泛 地 使 用 , 但 是 ， 
| 这 当然 不 是 对 设计 的 批评 。 
表 7-1 更 加 详细 地 对 POSIX 消 息 队 列 和 System V 消 息 队列 做 了 上 比较: 
37-1 POSIX 消 息 队 列 和 System V 消 息 队 列 
标 E POSIX System V 





标准 化 了 吗 ? 

必须 托管 在 已 认证 的 UNIX 系 统 上 吗 ? 

在 所 有 主要 的 UNIX 系 统 上 可 用 吗 ? 

消息 有 限制 吗 ? 

线程 安全 吗 ? (依据 SUS3) 

消息 有 优先 级 吗 ? 

接收 最 高 优先 级 以 外 的 消息 吗 ? 

通知 吗 ? 

使 用 文件 描述 符 吗 ? 

效率 高 吗 ? 取决 于 具体 实现 取决 于 具体 实现 
是 


每 个 消息 需要 两 次 用 户 -内核 复制 吗 ? 是 
队列 名 可 移植 吗 ? 是 不 
* 这 是 指数 据 从 用 户 空间 复制 到 内 核 空间 、 或 者 再 从 内 核 空间 复制 回 用 户 空 间 。 


既然 有 优点 ， 也 有 缺点 ， 为 什么 在 System V 消 息 都 存在 了 10 多 年 的 情况 下 ，POSIX 实 现 
组 成 员 还 发 明 一 个 新 的 消息 系统 呢 ? 而 且 既 然 这 么 做 了 ， 结 果 为 什么 却 没有 更 好 呢 ? 

下 面 是 我 的 答案 : 

。 当 POSIX 组 成 员 确定 对 已 存在 的 System V 方 法 有 许多 吹 毛 求 症 的 意见 时 ， 需 要 一 个 新 标 
准 的 主要 原因 是 ， 许 多 已 存在 的 、 有 System V 实 现 的 系统 不 适合 实时 应 用 ， 而 且 在 相同 
的 接口 下 有 两 个 同时 工作 的 实现 是 困难 的 ， 因 此 实现 需要 一 个 新 的 开始 。 

“但 是 ， 在 POSIX 进 程 内 没有 一 个 实际 的 方法 要 求 某 种 特殊 级 别 的 性 能 ， 因 此 在 许多 系统 
E, 而 不 是 大 部 分 的 系统 上 ， 两 者 (甚至 有 两 个 系统 时 ) 的 效率 基本 相同 。 

* POSIX IPC 名 字 的 不 可 移植 性 是 由 不 规范 造成 的 ， 为 了 允许 更 广泛 的 实现 集合 需要 它 ， 
其 中 包括 没有 任何 文件 系统 查询 的 快速 内 存 队列 。 

*。POSIX 组 成 员 不 对 实现 的 不 足 负责 任 。 最 有 可 能 负责 的 是 由 20 世 纪 90 年 代 中 期 的 许多 应 
用 开发 者 ， 即 使 不 是 大 多 数 ， 因 为 应 用 程序 的 开发 者 把 注意 力 集中 在 网 络 应 用 程序 上 ， 
为 此 使 用 了 套 接 字 ( 见 第 8 章 )， 但 对 处 理 非 网 络 消息 的 替代 方法 没有 兴趣 。 因 此 ， 如 
Sun 一 样 投资 较 多 的 设备 实现 POSIX 可 选 包 ， 而 BSD 和 Linux 这 样 零星 资金 投资 设备 的 团 
体 觉得 有 更 大 的 压力 做 这 件 事情 。 


7.8 关于 信号 量 


本 节 将 讲述 信号 量 的 一 般 特 性 并 介绍 如 何 用 文件 和 消息 来 实现 它们 。 在 7.9 和 7.10 两 节 中 
将 分 别 讲述 System V 信 号 量 的 系统 调用 和 POSIX 信 和 号 量 的 系统 调用 。 


7.8.1 基本 信和 号 量 的 用 法 

在 5.17.3 节 曾 涉 及 过 互 斥 。 更 一 般 地 说 ， 信 号 量 是 阻止 两 个 或 多 个 进程 或 线程 同时 访问 共 
享 资源 的 计数 器 。 尽 管 这 仅仅 是 建议 性 的 ， 但 是 如 果 进 程 或 线程 在 访问 共享 资源 前 不 检查 信 
号 量 ， 就 可 能 会 出 现 混乱 。 


多 ; 只 有 一 个 可 设置 难于 管理 


少 ; 可 设置 的 
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在 UNIX 里 ， 术 语 “信号 量 ”通常 应 用 于 由 同步 进程 的 信号 量 系统 调用 操纵 的 对 象 ， 术 语 
“ 互 斥 ”通常 指 用 于 使 线程 同步 的 更 轻 量 级 的 对 象 ， 该 内 容 在 5.17.3 节 已 经 讨论 过 。 本 节 只 讨 
论 信号 量 。 

二 元 信号 量 只 有 两 个 状态 : 锁定 和 非 锁定 。 一 般 信号 量 有 无 穷 多 (至 少 非常 多 ) 个 状态 。 
它 是 一 个 计数 器 ， 当 获得 (“加 锁 ") 时 减 一 ， 而 当 它 释 放 (解锁 ) 时 是 加 一 。 如 果 它 是 0， 那 
么 尝试 获取 它 的 进程 必须 等 待 另 一 个 进程 增加 其 值 ， 它 永远 不 会 变 为 负 值 。( 如 果 信号 量 只 能 
具有 两 个 值 ，0 和 1， 那 么 它 就 是 二 元 信号 量 。 ) 一 般 信号 量 通常 由 两 个 操作 来 访问 ， 可 以 抽象 
地 称 这 两 个 操作 为 semwait 和 sempost (有 时 称 作 P 和 V9 )。 可 以 尝试 用 C 语 言 来 编写 它们 : 

void semwait (int *sem) 

: while (*sem <= 0) 

7 /* do nothing */ 
(*sem) --; 
) 


void sempost(int *sem) 
{ 

(*sem) ++; 
} 


必须 通过 调用 sempost 来 初始 化 信号 量 ; 否则 信号 量 就 得 不 到 任何 初始 信号 量 值 。 例 如 ， 
如 果 用 信号 量 计算 空闲 缓冲 区 的 数量 ， 且 最 初 有 5 个 缓冲 区 ， 那 么 就 应 该 调用 5 次 sempost 以 便 
实现 初始 化 。 或 者 说 ， 可 以 将 信号 量变 量 设置 为 5。 

在 编写 semwait 和 sempost 时 曾 遇 到 过 一 些 麻烦 ， 这 里 必须 说 一 下 ， 在 下 面 三 种 情况 下 ， 它 
们 是 不 能 正常 工作 的 : 

“由 sem 指 向 的 信号 量变 量 通常 不 在 进程 间 共 享 ， 这 些 进程 有 不 同 的 数据 段 。( 尽 管 在 共 
享 内 存 中 ， 是 可 以 的 )。 

“函数 不 会 自动 执行 一 内 核 可 以 在 任何 时 候 中 断 进程 。 可 能 会 出 现 如 下 情况 : 进程 1 完 
成 了 semwait 中 的 while 循 环 ， 并 在 对 信号 量 减 1 之 前 被 中 断 ; 进程 2 进入 semwait， 发 现 
信号 量 为 1， 完 成 它 的 while 循 环 ， 且 减 信号 量 到 0; 进程 1 重新 开始 对 信号 量 减 1， 此 时 
信号 量 的 值 就 成 了 - 1 (非法 值 )。 

。 如 果 sem 为 0，semwait 将 会 处 于 叫 作 busy-wait 的 状态 。 这 是 一 个 使 用 CPU 十 分 不 明智 的 
方法 。 
因此 ， 不 能 仅仅 在 用 户 空间 内 编写 semwait 和 sempost。 必 须 由 内 核 提供 信号 量 ， 这 样 可 以 实 

现在 进程 间 共享 数据 ， 可 以 执行 原子 操作 ， 而 且 当 进 程 阻塞 时 ， 可 以 将 CPU 让 给 准备 好 的 进程 。 


7.8.2 用 文件 和 消息 实现 信号 量 
在 2.4.3 节 ， 已 经 讲述 了 如 何 使 用 open 来 产生 一 个 原始 的 二 元 信号 量 。 对 于 访问 共享 资源 
次 数 很 少 的 进程 ， 这 种 方法 是 可 行 的 ， 例 如 对 于 写 人 邮箱 文件 的 邮件 程序 。 但 对 任务 很 重 的 
用 途 来 说 ， 这 种 开销 是 巨大 的 。 因 此 需要 找到 只 需 花费 少量 时 间 就 可 以 检查 和 设置 的 信号 量 。 
消息 队列 也 可 以 被 用 作 信号 量 : 发 送 操作 向 队列 中 添加 消息 ， 发 送 操作 相当 于 sempost; 
接收 操作 从 队列 中 移 除 消息 ， 该 操作 相当 于 semwait。 当 队列 为 空 时 ， 接 收 操作 会 阻塞 ， 这 种 
情况 相当 于 信号 量 为 0。 


© P 和 V 是 E. W. Dijkstra 使 用 的 荷兰 惯用 语 proberen te verlagen (“RARD”) 和 单词 verhogen (“HI”) 的 
缩写， 有 些 书 上 说 P 代 表 prolagen， 但 那 并 不 是 一 个 单词 ， 其 至 连 荷 兰 语 都 不 是 ， 它 是 整个 短语 的 缩写 。 
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尽管 如 此 ， 任 何 支持 消息 (System V 变 量 或 POSIX 变量 ) 的 UNIX 系 统 ， 按 其 自身 正确 的 
方式 ， 也 同样 支持 信号 量 ， 而 且 更 有 效 。 


7.9 System V 信 号 量 


Systme V 信 号 量 和 POSIX 信 号 量 都 不 使 用 semwait 和 sempost 这 样 的 简单 的 调用 。 它 们 的 
系统 调用 更 复杂 ， 尽 管 POSIX 的 信号 量 并 不 是 非常 复杂 。 在 7.10.3 节 中 ， 将 对 这 两 种 情况 一 起 
评价 。 

首先 ， 讲 解 System V。 对 我 来 说 ， 这 些 系 统 调用 太 复杂 ， 无 法 尽 述 。 但 是 我 确信 ， 这 里 
解释 的 内 容 足 以 用 来 实现 semwait 和 sempost; 余下 的 内 容 ， 请 参见 [SUS2002] 的 系统 文档 。 

7.4 节 中 的 知识 适用 于 这 些 系统 调用 ， 因 此 这 里 不 需要 专门 介绍 关键 字 、 标 识 符 、 所 有 权 
等 内 容 了 。 

关于 System V 信 号 量 设施 有 意思 的 是 ， 系 统 调用 不 只 运行 在 单独 的 信号 量 上 ， 而 是 一 次 在 
整个 数组 上 。 借 助 原子 操作 ， 可 以 在 一 些 信号 量 上 调用 semwait 而 在 另 一 些 信 号 量 上 调用 
sempost。 是 否 需 要 在 实践 中 使 用 它 ， 是 值得 怀疑 的 ， 但 如 果 需 要 ， 可 以 这 么 做 。 尽 管 后 来 为 
了 方便 ， 同 时 对 两 个 信号 量 的 集合 进行 了 操作 ， 但 是 在 大 多 数 例子 中 ， 每 次 仅 操作 一 个 信 
号 量 。 

在 继续 讲 之 前 需要 解释 一 下 : System V 的 信号 量 太 复杂 ! 在 任何 使 用 信号 量 的 程序 中 ， 
都 必须 证 明 所 要 访问 的 共享 资源 是 独占 的 ， 不 会 发 生死 锁 ， 并 且 也 不 会 发 生 共享 资源 饿 死 
(从 来 不 被 访问 )。 因 为 那些 东西 是 如 此 的 依赖 于 时 间 ， 通 常 单独 的 测试 是 不 够 的 ; 因此 必须 
进行 分 析 。 对 于 简单 的 semwait 和 sempost， 这 也 是 非常 困难 的 。 分 析 所 有 的 System V 系 统 调 


用 大 概 是 不 可 能 的 。 
7.9.1 System V 信 和 号 量 系统 调用 
与 使 用 System V 消 息 队 列 时 一 样 ， 从 Xget 调 用 开始 讲 起 : 


semget 一 一 得 到 信号 量 集合 标识 符 
#include <sys/sem.h> 


int semget ( 
key_t key, /* key */ 
int nsems, /* size of set */ 
int flags /* flags */ 


de 
/* Returns identifier or -1 on error (sets errno) */ 





就 像 所 期 待 的 那样 ，semget 将 关键 字 转 换 成 了 代表 一 个 信号 量 集 的 ID。 如 果 f1ags 的 
IPC_CREAT 位 是 打开 的 ， 且 该 信号 量 集合 尚未 存在 ， 那 么 此 调用 将 会 创建 它 。 在 该 集合 中 ， 


有 nsems 信 号 量 ， 它 们 以 0 开始 计数 。 
信号 量 不 能 被 立即 使 用 一 必须 使 用 semct1 调 用 来 对 其 进行 初始 化 。 为 什么 semget 不 


将 它们 初始 化 为 0 是 件 很 奇怪 的 事 ， 但 SUS 并 不 要 求 它 这 么 做 ，9 并 且 许 多 实现 也 不 这 么 要 求 。 
下 面 是 semct1: 


O 事实 上 ，SUS 中 规定 ,.“ 和 集合 中 的 每 个 信号 量 相 联系 的 数据 结构 都 不 会 被 初始 化 . ”短语 “不 会 ”意味 着 
对 它 初始 化 甚至 不 是 一 个 实现 选项 。 这 是 有 意 的 还 是 书写 马虎 呢 ? 
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semeti 一 一 控制 信号 量 集合 
#include <sys/sem.h> 


int semctl( 
int semid, identifier */ 
int semnum, semaphore number */ 
int cmd, * command */ 
union semun arg /* argument for command */ 


ve 
/* Returns value or 0 on success; -1 on error (sets errno) */ 


union semun 一 一 semctl 的 union 


union semun { 
int val; integer */ 
struct semid_ds *buf; pointer to structure */ 
unsigned short *array; array */ 

Me 


struct semid_ds 一 一 semct 的 结构 


struct semid ds ( 
struct ipc_perm sem_perm; /* permission structure */ 
unsigned short sem_nsems; /* size of set */ 
time_t sem_otime; /* time of last semop */ 
time_t sem_ctime; /* time of last semctl */ 


ye 





很 奇怪 ， 在 头 文件 sem.h 中 没有 定义 union semun 一 一 必须 自己 定义 它 。 

除了 通常 的 System V IPC 的 命令 IPC_RMID、 IPC_STAT 和 IPC_SET 外 ， 有 7 个 专门 用 于 
信号 量 的 命令 : 

GETNCNT 得 到 等 待 信号 量 semnum 增 加 而 被 阻塞 的 进程 数 。 

GETZCNT 得 到 等 待 信号 量 semnum 变 为 0 而 阻塞 的 进程 数 。 

GETPID ”得 到 最 后 执行 semop 的 进程 的 ID 。 

GETVAL ”得 到 信号 量 semnum 的 值 。 

SETVAL ”设置 信号 量 semnum 的 值 。 使 用 arg .val。 

GETALL ”得 到 集合 中 所 有 信号 量 的 值 。 使 用 arg.array。 

SETALL ”设置 集合 中 所 有 信号 量 的 值 。 使 用 arg.array。 

令 人 吃惊 的 是 ， 如 果 有 一 个 100 个 信号 量 的 集合 ， 且 想 要 使 用 semct1 将 它们 全 部 都 设置 
为 0， 则 必须 建立 一 个 100 个 元 素 全 为 0 的 数组 作为 第 4 个 参数 来 使 用 ! 这 对 我 们 没什么 影响 ， 
因为 通常 总 是 用 SETVAL 一 次 性 地 对 它们 进行 初始 化 。 

ITPC_RMID 命 令 的 功能 和 使 用 msgct1 相 似 ( 见 7.5.1 节 )。 

IPC_STAT 使 用 union 的 buf 成 员 填 充 由 第 4 个 参数 传递 的 semid_ds 结 构 。IPC_SET 仅 
用 于 设置 sem_perm.uid、sem_perm.gid 和 sem_perm.mode 成 员 。 

前 面 曾 说 过 ， 因 为 semget 并 不 初始 化 信号 量 ， 所 以 要 使 用 semct1 来 完成 该 工作 ， 顺 序 如 下 : 

ec_negl(semid = semget (key, 1, PERM_FILE | IPC_CREAT) ) 


arg.val = 0; 
ec_negl( semctl(semid, 0, SETVAL, arg) ) 


不 幸 的 是 ,因为 使 用 了 两 个 系统 调用 来 创建 和 初始 化 信号 量 , 所 以 在 semct1 被 执行 之 前 ， 
在 同一 个 信号 量 上 调用 semget 的 第 二 个 进程 或 线程 可 以 开始 处 理 一 个 未 初始 化 的 信号 量 。 该 
问题 的 解决 方法 要 求助 于 如 下 事实 : 当 新 信号 量 的 值 尚未 被 初始 化 完毕 时 ， 它 的 “最 后 的 
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semop 时 间 ” 存 储 在 semid_ds 结 构 的 sem_otime 成 员 中 并 被 semget 初 始 化 为 0。 基 于 以 上 
事实 给 出 9 如 下 方案 : 

。 创 建 信号 量 的 进程 或 线程 也 调用 semct1 来 初始 化 它 ， 然 后 对 它 调用 semop， 以 便 

sem_otime 获 得 一 个 非 零 值 。 

。 所 有 得 到 信号 量 ID 的 进程 或 线程 都 要 等 待 时 间 变 成 非 零 。 

这 个 方案 仅仅 对 新 版 信号 量 有 效 。 如 果 重 新 启动 先前 运行 过 的 有 信和 号 量 的 应 用 程序 ， 那 
个 信号 量 便 已 经 有 值 了 ， 且 sem_otime 有 非 零 值 ， 这 可 能 会 引起 混乱 。 所 以 ， 必 须 确保 在 两 
次 运行 程序 中 间 通 过 删除 该 信号 量 把 信号 量 清理 干净 ， 具 体 可 以 使 用 semct1 调 用 或 使 用 
ipcrm 命 令 (7.4.4 节 ) 来 实现 。 

不 幸 的 是 ， 到 写本 书 为 止 ， 在 FreeBSD 或 Darwin 上 等 待 sem_otime 并 不 起 作用 ， 因 为 从 
来 都 不 更 新 该 时 间 。 因此 除非 在 第 二 次 尝试 得 到 信号 量 ID (semget ) 之 前 ， 能 确定 由 于 应 
用 本 身 的 原因 初始 化 会 发 生 ， 否 则 根本 不 能 可 靠 地 使 用 System V 信 号 量 。( 更 不 幸 的 是 ， 这 些 
系统 也 并 不 完全 支持 POSIX 信 号 量 .) 

下 一 节 介 绍 操 作 信号 量 集合 的 系统 调用 semop。 


7.9.2 简单 信号 量 接口 


利用 简单 的 信号 量 打开 调用 ， 可 以 隐藏 现在 要 实现 的 System V 信 号 量 和 稍 后 要 实现 的 
POSIX 信 号 量 的 复杂 性 。 下 面 是 SimpleSemopen 和 与 其 配对 的 SimpleSemclose 的 对 照 表 ; 






SimpleSemOpen 一 一 打开 简单 信号 量 


#include *SimpleSem.h” 











struct SimpleSem *SimpleSemOpen( 
const char *name /* name (follows System V or POSIX rules) */ 





Ve 
/* Returns pointer to structure or NULL on error (sets errno) */ 


SimpleSemClose 一 一 关闭 简单 信号 量 
#include *SimpleSem.h” 


bool SimpleSemClose( 
struct SimpleSem *sem /* semaphore */ 

) 

/* Returns true on success or false on error (sets errno) */ 


struct SimpleSem 一 一 简单 信号 量 函 数 的 结构 


struct Simplesem ( 
union { 
int sm_semid; /* System V semaphore-set ID */ 


void *sm_sem; /* POSIX sem_t pointer (needs a cast) */ 





SimpleSemOpen 根 本 没有 任何 选项 : 它 通过 名 字 打开 单个 的 信号 量 (在 System V 的 实 
现 中 ， 它 自己 获得 关键 字 )， 如 果 有 必要 ， 可 以 使 用 权限 PERM_FILE ( 见 2.3 节 ) 来 创建 它 。 
它 返 回 指向 SmipleSem 结 构 的 指针 ， 该 结构 包含 了 其 他 函数 识别 信号 量 集 (或 其 中 一 个 ) 所 


© 我 从 [Ste1999] 的 第 284 页 中 了 解 了 这 个 技术 。 在 本 书 的 第 1 版 中 我 弄 错 了 。 
© 我 听 说 FreeBSD5.1 中 修正 了 它 。 
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需要 的 所 有 信息 ， 对 于 System V 来 说 ， 用 于 识别 信号 量 的 信息 是 一 个 整 型 信号 量 集 的 ID。( 稍 
后 ， 将 介绍 POSIX 信 号 量 的 需求 )。 但 使 用 简单 信号 量 包 的 用 户 并 不 需要 关心 SimpleSem 结 
构 中 有 什么 ， 因 为 指向 它 的 指针 只 会 被 传递 给 其 他 一 些 函 数 ， 如 SimpleSemclose， 而 该 函 
数 关 闭 了 信号 量 并 释放 了 SimpleSem 结 构 所 使 用 过 的 所 有 内 存 。 

下 面 是 System V 系 统 下 SimpleSemOpen 的 实现 ， 在 这 儿 ， 可 以 看 到 前 面 所 讲 的 确保 信 


号 量 被 恰当 初始 化 的 方案 : 


struct SimpleSem *SimpleSemOpen(const char *name) 
t 
struct SimpleSem *sem = NULL; 
key_t key; 
union semun { 
int val; 
struct semid_ds *buf; 
unsigned short ‘array; 
} arg; 
struct sembuf sop; 


(void) close(open(name, O_WRONLY | O_CREAT, 0)); 
ec_negl( key = ftok(name, 1) ) 
ec_null( sem = malloctsizeof (struct SimpleSem)) ) 


if ((sem->sm.sm_semid = semget (key, 1, 
PERM_FILE | IPC_CREAT | IPC_EXCL)) ! 

arg.val = 0; 
ec_negl( semct1(sem->sm.sm_semid, 0, SETVAL, arg) ) 
sop.sem num = 0; 
sop.sem_op = 0; 
sop.sem_flg = 0; 
ec_negl( semop(sem->sm.sm_semid, &sop, 1) ) 





-1) 1 


} 
else { 
if (errno == EEXIST) { 
while (true) 
if ((sem->sm.sm_semid = semget (key, 1, PERM_FILE)) == -1) ( 
if (errno == ENOENT) { 
sleep(1); 
continue; 
} 
else 
EC_FAIL 
时 
else 
break; 
while (true) { 
struct semid_ds buf; 


arg.buf = &buf; 
ec_negl( semct1(sem->sm.sm_semid, 0, IPC_STAT, arg) ) 
if (buf.sem_otime == 0) ( 
sleep(1); 
continue; 
} 
else 
break; 


else 
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EC_FAIL 
} 


return sem; 


EC_CLEANUP_BGN 
free(sem) ; 
return NULL; 

EC_CLEANUP_END 

} 


其 中 如 下 两 个 语句 的 顺序 

(void)close(topen(name，O_WRONLY | O_CREAT, 0)); 

ec_negl( key = ftok(name, 1) ) 
和 7.5.3 节 中 的 一 样 。 如 果 名 字 不 存在 ， 便 创建 名 字 ， 而 且 在 使 用 ftok 时 ， 所 有 因 名 字 而 产生 
的 问题 都 会 被 报告 ， 而 使 用 open 或 close 时 就 不 会 报告 所 有 的 问题 。( 如 果 不 喜 欢 那样 做 ， 可 
以 独自 检查 open 来 发 现 除了 ENOENT 之 外 的 错误 ， 而 不 把 它 伐 入 到 立即 调用 close 中 。) 

然后 ， 使 用 IPC_CREAT 和 IPC_EXCL 标 记 调 用 semget， 以 便当 信号 量 已 经 存在 时 
semget 失 败 。 对 于 由 于 这 个 原因 而 使 它 失败 的 所 有 进程 和 线程 需要 等 待 它 被 初始 化 。 从 
semget 获 得 成 功 返 回 的 进程 或 线程 使 用 semct1 对 它 进 行 初始 化 ， 然 后 调用 semop， 它 对 该 
值 没有 任何 改变 ( 稍 后 将 作 解 释 )， 但 副作用 是 设置 了 sem_otime。 

需要 等 待 的 进程 和 线程 将 循环 直到 某 个 semget 成 功 ， 每 次 循环 都 休眠 ， 然 后 再 一 次 循环 
直到 时 间 变 为 非 零 ， 每 次 循环 也 休 眼 。 

对 System V 信 号 量 而 言 ，SimpleSemC1lose 并 没有 做 什么 : 


bool SimpleSemClose(struct SimpleSem *sem) 


{ 
free (sem); 
return true; 
) 


为 了 删除 简单 信号 量 ， 可 以 调用 SimpleSemRemove: 





SimpleSemRemove 一 一 删除 简单 信号 量 


#include *SimpleSem.h” 











bool SimpleSemRemove ( 
struct SimpleSem *sem /* semaphore */ 





ve 
/* Returns true on success or false on error (sets errno) */ 





在 一 个 并 不 存在 的 信号 量 上 调用 SimplesemRemove 是 可 以 的 ， 这 并 不 被 认为 是 一 个 错 
误 。 事实 上 ， 当 应 用 程序 需要 使 用 新 的 信号 量 启动 时 ， 恰 恰 应 该 这 么 做 。 
下 面 是 SimpleSemRemove 的 代码 : 


bool SimpleSemRemove(const char *name) 
{ 

key_t key; 

int semid; 

if ((key = ftok(name, 1)) == -1) { 

if (errno != ENOENT) 
EC_FAIL 
F 
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else { 
if ((semid = semget (key, 1, PERM FILE)) == -1) { 
if (errno != ENOENT) 
EC_FAIL 
} 
else 


ec_negl( semctl(semid, 0, IPC_RMID) ) 
} 
return true; 


EC_CLEANUP_BGN 
return false; 

EC_CLEANUP_END 

} 


现在 ， 回 到 System V。 准 备 介绍 semop 系 统 调用 ， 它 完成 了 semwait 和 sempost 所 做 的 
工作 : 





semop 一 一 操作 信号 量 集合 


#include <sys/sem.h> 











int semop( 





int semid, /* identifier */ 
struct sembuf *sops, /* operations */ 
size_t nsops /* number of operations */ 





) 
/* Returns 0 on success or -1 on error (sets errno) */ 


struct sembuf 一 一 semop 的 结构 


struct sembuf { 
unsigned short sem num;  /* semaphore number */ 
short sem_op; /* Semaphore operation */ 
short sem_flg; /* Operation flags */ 

xv 





前 面 曾 说 过 ，semop 不 只 可 以 操作 一 个 信号 量 而 且 可 以 操作 任意 多 个 ， 甚 至 是 整个 信号 
量 集 合 。 在 调用 之 前 ， 需 要 建立 一 个 操作 数组 (struct sembuf)， 但 如 果 只 要 操作 一 个 信 
号 量 ， 那 么 用 一 个 单独 的 struct sembuf 就 可 以 了 一 一 只 要 传递 它 的 地 址 并 让 nsops 使 用 1。 

每 个 sem_op 可 以 是 正 的 ， 可 以 是 负 的 ， 也 可 以 是 0: 

>0 将 sem_op 的 值 加 到 信号 量 的 值 上 (sempost)。 

<0 从 信号 量 的 值 里 减 去 sem_op 的 绝对 值得 到 ， 除 非 减 后 该 值 变 为 负 值 ， 在 这 种 情况 下 ， 
调用 阻塞 直到 整个 值 能 够 被 减 (semwait)。 

0 调用 阻塞 直到 信号 量 的 值 变 为 0。 

传递 给 semop 的 所 有 操作 都 可 以 自动 执行 ， 而 且 直到 所 有 的 操作 都 完成 了 ， 该 函数 才 会 
返回 。( 除 非 它 被 线程 撤消 、 信 号 或 信号 量 集 的 删除 所 中 断 。) 

通过 为 操作 设置 sem_f1g 成 员 的 ITPC_NOWRAIT 标 志 ， 可 以 防止 阻塞 。 如 果 数组 中 有 操作 
要 阻塞 且 已 经 设置 了 该 标志 ， 那 么 semop 会 立刻 返回 。 因 为 semop 总 是 原子 性 地 运行 ， 所 以 
即使 其 他 操作 在 数组 中 出 现 得 早 并 且 这 些 操作 可 能 没有 阻塞 ， 也 不 会 运行 这 些 操作 。 

另外 还 有 一 个 特征 : 对 进程 增加 或 减少 的 每 一 个 信号 量 ， 和 实际 值 一 起 ， 不 断 调 整 。 当 
对 增加 操作 设置 了 IPC_UNDO 标 志 时 ， 作 减少 调整 ， 对 于 一 个 减少 操作 反之 亦 然 。 当 进程 退 
出 时 ， 调 整 值 被 加 到 信号 量 上 ， 然 后 取消 所 有 进程 对 信号 量 所 做 过 的 操作 。 例 如 ， 假 定 一 个 
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进程 减少 一 个 信号 量 〈( 例 如 ，semwait) 去 锁定 缓冲 区 ， 并 且 当 完成 时 ， 增 加 它 (sempost). 
使 用 IPC_UNDo 标 志 ， 如 果 它 非 正 常 地 退出 ， 能 够 确保 缓冲 区 解锁 。 

对 于 简单 信号 量 ， 每 次 仅 需 对 一 个 信号 量 进行 操作 ， 仅 增加 或 减少 1， 并 且 不 必 使 用 
IPC_NOWAITRIPC_UNDO. 因此 Simplesemwait 和 SimpleSemPost 也 是 简单 的 ; 


SimpleSem Wait 一 一 减少 简单 信号 量 


#include “Simplesem.h* 


bool Simplesemwait( 
struct SimpleSem *sem /* semaphore */ 
Fg 
/* Returns true on success or false on error (sets errno) */ 


SimpleSemPost 一 一 增加 简单 信号 量 
#include “SimpleSem.h* 


bool SimpleSemPost ( 

struct SimpleSem *sem /* semaphore */ 
) 
/* Returns true on success or false on error (sets errno) * 





以 下 是 代码 : 


bool SimpleSemWait (struct SimpleSem *sem) 
4 
struct sembuf sop; 


sop.sem_num = 0; 
sop.sem_op = -1; 

sop.sem_flg = 0; 

ec_neg1( semop(sem->sm.sm_semid, &sop, 1) ) 
return true; 


EC_CLEANUP_BGN 
return false; 

EC_CLEANUP_END 

} 


bool SimpleSemPost (struct SimpleSem *sem) 
{ 
struct sembuf sop; 


sop.sem_num 
sop.sem_op = 
sop.sem_flg i 
ec_negl( semop(sem->sm.sm_semid, &sop, 1) ) 
return true; 





EC_CLEANUP_BGN 
return false; 

EC_CLEANUP_END 

} 


在 继续 讲述 之 前 ， 先 说 一 下 System V 信 号 量 的 另 一 个 用 途 : 在 进程 间 传 递 整数 。 例 如 ， 
假定 一 个 客户 端 希望 向 服务 器 端 传递 它 的 进程 ID。 它 访问 信号 量 ， 并 将 信号 量 的 值 设置 为 进 
程 ID。 然 后 ， 服 务 器 查看 该 值 从 而 得 到 该 数字 。 因 为 信号 量 集 有 一 个 信号 量 数 组 ， 所 以 可 以 
用 这 种 方式 来 传递 整 型 数组 。 
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7.10 POSIX 信 号 量 


这 些 信号 量 系统 调用 是 POSIX 标 准 的 一 部 分 (尽管 是 可 选 的 ) ， 必 须 检 查 
_POSIX_SEMAPHORES 特 性 测试 宏 以 得 知 它们 是 否 存 在 ( 见 1.5.4 节 和 7.6.3 节 )。 到 目前 为 止 ， 
FreeBSD、Darwin 或 Linux 中 没有 这 些 信号 量 。 

7.10.1 命名 的 POSIX 信 号 量 

POSIX 信 号 量 比 System V 信 号 量 使 用 起 来 更 简单 ， 更 容易 。 事 实 上 ， 该 系统 调用 中 的 5 个 

和 前 一 节 的 SimpleSem 接 口 正好 一 致 : 


sem_open 一 一 打开 命名 信号 量 


#include <semaphore.h> 











sem_t *sem_open( 
const char *name, /* POSIX IPC name */ 
int flags /* flags (excluding O_CREAT) */ 






V; 
/* Returns pointer to semaphore or SEM_FAILED on error (sets errno) */ 






sem_t *sem_open( 








const char *name, /* POSIX IPC name */ 
int flags, /* flags (including O_CREAT) */ 
mode_t perms, /* permissions */ 

unsigned value /* initial value */ 





) 
/* Returns pointer to semaphore or SEM_FAILED on error (sets errno) */ 


sem_close 一 一 关闭 命名 信号 量 
#include <semaphore.h> 


int sem_close( 
sem_t *sem /* semaphore */ 


) 
/* Returns 0 on success or -1 on error (sets errno) */ 


sem_unlink 一 一 删除 命名 信号 量 


#include <semaphore.h> 


int sem_unlink( 
const char *name /* POSIX IPC name */ 


Ve 
/* Returns 0 on success or -1 on error (sets errno) 


sem_wait 一 一 减少 信号 量 
#include <semaphore.h> 


int sem wait( 
sem_t *sem /* semaphore */ 


Ve 
/* Returns 0 on success or -1 on error (sets errno) */ 


sem_post 一 一 增加 信号 量 
#include <semaphore.h> 


int sem_post ( 
sem_t *sem/* semaphore */ 


) 
/* Returns 0 on success or -1 on error (sets errno) 
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POSIX 信 号 量 是 计数 信号 量 ， 和 System V 变 体 一 样 ， 但 步 长 仅 是 1。 每 个 sem_t 对 象 仅 代 
表 一 个 信号 量 ， 并 不 像 System V 系 统 那样 代表 它们 的 集合 。 

打开 、 关 闭 和 解 链 的 调用 遵循 了 POSIX IPC 调 用 的 风格 一 一 该 风格 在 7.7.1 节 中 POSIX 消 息 队 
列 系统 调用 出 现 过 。 特别 地 , 传递 给 sem_open 的 名 字 必 须 符合 7.6.2 节 中 所 讨论 的 可 移植 性 规则 。 
像 所 期 望 的 那样 ，sem_post 将 信号 量 值 加 1， 而 sem_wait 减 1， 如 果 该 值 已 经 是 9， 则 阻塞 。 

不 要 和 sem_open 一 起 使 用 0_RDONLY、0_WRONLY 或 0 RDWR， 因 为 这 样 是 没有 意义 的 一 一 


信号 量 是 无 用 的 ， 除 非 sem_post 和 sem_wait 能 一 起 使 用 。 
对 System V 所 需要 的 所 有 9 的 初始 工作 都 完成 了 。 实 际 上 真正 要 做 的 就 是 要 将 需要 的 值 


( 常 是 0) 传递 给 sem_open。 

当 sem_open 失 败 时 ， 要 当心 它 的 返回 值 : 它 是 SEM_FRILED， 而 不 是 NULL ，NULL 通 
常 是 函数 失败 的 返回 值 ， 函 数 失败 时 会 以 其 他 方式 返回 一 个 指针 。 

POSIX 信 号 量 的 SimpleSem 调 用 的 实现 是 很 普通 的 : 

struct SimpleSem *SimpleSemOpen(const char *name) 


J 
struct SimpleSem *sem = NULL; 


ec_null( sem = malloc(sizeof(struct SimpleSem)) ) 
if ((sem->sm.sm_sem = sem_open(name, O_CREAT, PERM_FILE, 0)) == 
SEM_FAILED) 
EC_FAIL 
return sem; 


EC_CLEANUP_BGN 
free (sem); 
return NULL; 
EC_CLEANUP_END 
) 
bool SimpleSemClose(struct SimpleSem *sem) 
{ 
ec_negl( sem_close(sem->sm.sm_sem) ) 
free(sem) ; 
return true; 


EC_CLEANUP_BGN 
return false; 

EC_CLEANUP_END 

} 


bool SimpleSemRemove(const char *name) 
{ 
if (sem_unlink(name) == -1 && errno != ENOENT) 
EC_FAIL 
return true; 


EC_CLEANUP_BGN 
return false; 

EC_CLEANUP_END 

} 


bool SimpleSemPost (struct SimpleSem *sem) 
{ 
ec_negl( sem post (sem->sm.sm_sem) } 
O 可 能 你 对 这 个 词 并 不 熟悉 ， 我 查 了 一 下 字典 ， 其 中 一 个 字典 对 这 个 词 的 定义 是 “复杂 繁琐 的 一 套 手 续 "， 在 
这 里 这 样 解释 很 合适 。 
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return true; 


EC_CLEANUP_BGN 
return false; 

EC_CLEANUP_END 

} 


bool SimpleSemWait (struct SimpleSem *sem) 
{ 
ec_negl( sem wait(sem->sm.sm_sem) ) 
return true; 


EC_CLEANUP_BGN 
return false; 
EC_CLEANUP_END 
) 
POSIX 信 号 量 有 一 些 SimpleSem 接 口 并 不 需要 的 额外 特性 。 首 先 ， 在 System V 下 ， 不 必修 


改 或 等 待 就 可 以 查询 信号 量 的 值 : 


sem_getvalue 一 一 得 到 信号 量 的 值 


#include <semaphore.h> 


int sem_getvalue( 
sem_t *restrict sem, /* semaphore */ 
int *valuep /* returned value */ 


Fi 
/* Returns 0 on success or -1 on error (sets errno) */ 





在 调用 sem_getvalue 时 ， 如 果 信号 量 的 值 比 0 大 ， 便 返回 该 值 。 尽 管 如 此 ， 信 号 量 的 值 
还 是 会 因 sem_getvalue 的 返回 值 的 时 间 的 不 同 而 略 有 差异 ,因此 实际 的 数 并 不 是 那么 有 用 的 。 
如 果 值 是 0， 那 么 返回 的 值 将 是 等 待 信号 量 的 进程 数量 的 负数 。 如 果 没 有 任何 值 ， 将 返回 0。 

sem_wait 有 两 个 变 体 : 一 个 是 sem_trywait， 它 是 非 阻塞 的 : 


sem_trywait 一 一 如 果 可 能 就 减少 信号 量 


#include <semaphore.h> 


int sem_trywait ( 
sem_t *sem /* semaphore */ 


) 
/* Returns 0 on success or -1 on error (sets errno) */ 





如 果 信号 量 已 经 是 0, 则 sem_trywait 返 回 ~1, 并 将 errno 设 置 为 EAGAIN。( 对 于 非 阻塞 ， 
其 他 系统 调用 使 用 0_NONBLOCK 或 TPC_NOWAIT 这 样 的 标志 ; 这 里 它 是 个 独立 的 系统 调用 。) 
如 果 信 号 量 没有 变 成 正 数 ， 那 么 另 一 个 变 体 sem_timedwait 在 一 个 时 间 段 之 后 会 暂停 : 


sem_timedwait 减少 信号 量 


#include <semaphore.h> 
#include <time.h> 


int sem timedwait( 
sem t *restrict sem, /* semaphore */ 
const struct timespec *time /* absolute time */ 


be 
/* Returns 0 on success or -1 on error (sets errno) */ 





传递 给 sem_timedwait 的 时 间 是 绝对 时 间 (例如 ，1:23:17 PM), ， 而 不 是 一 个 时 间 间 隔 
(如 ，27 秒 )。 它 与 哪个 时 钟 相 比 较 和 使 用 什么 样 的 精度 取决 于 是 否 支持 POSIX 定 时 器 选项 。 
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如 果 支 持 ， 则 使 用 实时 时 钟 。 如 果 不 支持 ， 则 使 用 普通 时 钟 (如 time 系 统 调用 使 用 的 那样 ) 。 
( 见 1.7 节 中 有 关 struct timespec 的 讨论 以 及 UNIX 时 间 的 其 他 部 分 .。) 
sem_timedwait 是 超时 选项 (_POSIX_TIMEOUTS) 的 一 部 分 并 且 是 SUS3 中 新 增 的 。 


7.10.2 未 命名 的 POSIX 信 号 量 

快速 回顾 : sem_open、sem_close 和 sem_unlink 是 与 命名 信号 量 一 起 使 用 的 ， 而 命 
名 信号 量 存在 于 进程 外 部 的 某 个 地 方 ， 需 要 通过 POSIX IPC 名 来 访问 它们 。 可 以 通过 
sem_open 得 到 一 个 指向 sem_t 对 象 的 指针 , 不 可 以 直接 处 理 该 对 象 。 当 调用 sem_close 时 ， 
会 释放 (sem_open) 使 用 的 所 有 内 存 。 这 些 信 号 量 固定 地 在 线程 和 进程 之 间 工 作 。 

为 了 使 信号 量 更 快 ， 也 可 以 直接 声明 sem_t 对 象 : 

sem_t sem; 
或 动态 地 分 配 一 个 ， 像 这 样 : 

sem_t *semp = malloc (sizeof (sem_t)); 


但 如 果 自 己 分 配 sem_t 对 象 ， 必 须 调用 sem_init 对 它 初始 化 : 


sem_init 一 一 初始 化 未 命名 信号 量 


#1include <semaphore.h> 


int sem_init( 
sem_t *sem, semaphore */ 
int pshared, * shared between processes? */ 
unsigned value * initial value */ 


d; 
/* Returns 0 on success or -1 on error (sets errno) */ 





然后 调用 sem_destroy 来 删除 : 
sem_destroy 一 一 删除 未 命名 信号 量 


#lnclude <semaphore.h> 


int sem_destroy( 
sem_t *sem /* semaphore */ 


3 
/* Returns 0 on success or -1 on error (sets errno) */ 





sem_destroy 并 不 释放 sem_t 对 象 ， 因 为 它 并 不 知道 内 存 是 怎样 分 配 的 (静态 声明 、 
malloc， 等 等 )。 必 须 自己 释放 内 存 (如 果 恰 当 )。 当 然 ， 如 果 全 局 地 或 在 栈 上 分 配 信号 量 ， 
就 什么 都 不 必 做 ; 信号 量 的 生存 期 将 在 适当 的 时 间 结 束 。 

sem_init 和 sem_destroy 用 于 替代 sem_open 和 sem_close; 可 以 使 用 这 对 ， 也 可 
以 使 用 那 对 ， 具 体 取 决 于 信号 量 是 命名 的 还 是 未 命名 的 。 另 一 些 调用 (例如 ，sem_post、 
sem_timedwait) 并 不 在 意 sem_t 指 针 是 怎样 获得 的 。 

好 了 ， 未 命名 的 信号 量 可 能 更 快 ， 但 如 果 它 们 处 在 单 进程 的 内 存 中 ， 它 们 有 什么 优点 
呢 ? 真正 的 优点 在 于 : 

。 当 需要 一 个 计数 信号 量 而 不 仅 是 一 个 仅 有 两 个 状态 (二 元 信号 量 ) 的 互 扩 时 ， 它 们 在 线 

程 间 的 同步 工作 完成 得 非常 好 。 

。 如 果 它 们 在 共享 内 存 中 ， 那 么 在 进程 间 会 工作 得 很 好 ， 稍 后 就 会 讲 到 。 在 这 种 情况 下 ， 

sem_init 的 pshared 参 数 必 须 是 非 零 的 。 

对 线程 来 说 ， 第 一 个 优点 是 非常 重要 的 ， 而 且 一 些 UNIX 实 现 也 支持 它 ， 典 型 的 有 Linux 
和 FreeBSD (但 不 含 Darwin)， 尽 管 某 些 版 本 并 不 完全 支持 POSIX 信 号 量 。 更 确切 地 说 ， 是 支 
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f¥sem_init (pshared 仅 为 0) 和 sem_destroy， 但 不 支持 sem_open 和 sem_close。 
在 这 些 有 限 的 实现 下 ， 也 支持 sem_post、sem_wait、sem_trywait 和 sem_getvalue， 
但 不 支持 sem_timedwait。 

关于 未 命名 (在 内 存 中 ) 信号 量 的 另 一 个 规则 是 : 只 可 以 使 用 传递 给 sem_init 的 实际 
内 存 ， 而 不 是 它 的 副本 。 所 以 下 面 的 是 错误 的 : 


void fen(sem_t s) 


g 
sem_post (&S) ; 


} 


void fen2 (void) 


{ 
sem_t sem; 


sem_init (&sem) ; 
fcn(sem) ; 
pa 
调用 fcn 复 制 该 信号 量 ， 破 坏 了 这 个 规则 。 另 外 ， 程 序 中 所 有 处 理 信号 量 的 部 分 都 需要 使 用 原先 
的 初始 化 存储 地 址 来 运行 。 在 7.14.2 节 中 ， 将 给 出 一 个 驻 留 在 共享 内 存 中 的 未 命名 信和 号 量 的 例子 。 


7.10.3 评论 System V 信 号 量 和 POSIX 信 号 量 

对 于 进程 间 通 信 ，System V 信号 量 系统 调用 是 非常 难 用 的 ， 并 且 不 少 缺点 ， 但 它们 都 是 
普遍 可 用 的 , 并 且 一 旦 困难 的 部 分 (主要 指 初始 化 ) 隐藏 在 像 SimpleSem 那 样 合理 的 接口 之 后 ， 
也 不 会 太 粳 糕 。POSIX 信 号 量 使 用 起 来 更 容易 ， 但 并 不 是 普遍 可 用 的 。 如 果 对 用 户 来 说 ， 可 
移植 性 更 重要 ， 就 需要 使 用 System V 系 统 调用 ， 而 如 果 不 能 随处 使 用 System V 系 统 调用 ， 那 
么 用 POSIX 调 用 根本 就 得 不 到 任何 东西 。 如 果 移植 性 不 重要 ， 并 且 在 你 的 UNIX 系 统 中 ， 支 持 
POSIX 调 用 ， 那 么 很 明显 应 该 使 用 POSIX 调 用 。S 

对 于 进程 内 通信 ( 即 线程 之 间 )，System V 信 号 量 太 过 于 笨重 和 缓慢 ， 而 且 未 命名 的 、 非 
进程 共享 POSIX 信 和 号 量 通常 在 POSIX 线 程 所 在 的 地 方 都 是 可 用 的 ， 所 以 如 果 用 户 需要 互 斥 之 
外 的 东西 ， 应 该 使 用 POSIX 信 号 量 。 


7.10.4 共享 进程 互 斥 和 读 写 锁 

在 5.17.3 节 中 ， 为 了 使 用 同步 线程 介绍 了 互 斥 ， 但 它们 是 在 内 存 中 并 且 在 一 个 进程 中 一 一 
实质 上 ， 在 内 存 中 ， 非 进程 共享 的 POSIX 信 和 号 量 使 用 的 是 二 元 形式 。 用 户 也 可 以 创建 内 存 互 斥 
并 利用 PTHREAD_PROCESS_SHARED 属 性 设置 的 pthread_mutex_init 初 始 化 它 ， 在 这 种 情 
况 下 ， 它 是 在 线程 间 共享 的 ， 这 些 线程 可 能 在 不 同 的 进程 中 。 但 是 ， 即 使 POSIX 线 程 ( 它 是 个 
独立 子 选项 ) 是 这 种 情况 ， 也 并 不 总 是 实现 这 些 特性 ， 因 此 它 可 能 是 不 可 用 的 。 

也 存在 许多 POSIX 线 程 读 写 锁 ， 在 第 5 章 中 ， 根 本 没有 描述 它们 。 它 们 很 像 互 斥 ， 但 为 了 
允许 更 多 的 吞吐 量 ， 它 们 在 读 和 写 上 有 所 不 同 (共享 和 互 斥 )。 对 于 互 斥 ， 用 户 可 以 设置 一 个 
THREAD_PROCESS_SHARED 属 性 。[ 下 一 节 介 绍 ， 读 写 锁 对 互 斥 体 就 像 fcnt1 文 件 锁 对 
lockf 文 件 锁 那 样 ( 见 7.11.3 和 7.11.4 节 )。] 


日 不计 轻易 假定 移植 性 不 重要 。 几 平 现在 的 每 一 个 程序 都 有 可 能 在 将 来 的 某 一 天 被 引入 到 Linux 中 运行 。 而且 
即使 从 来 不 移植 ， 当 在 与 销售 商谈 判 时 ， 潜 在 的 移植 性 也 会 有 帮助 。 
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7.11 文件 锁 
这 一 节 将 解释 在 UNIX 中 ， 文 件 锁 是 怎样 工作 的 ， 为 什么 它 有 时 候 并 没有 按 用 户 所 要 求 的 
那样 去 做 。 


7.11.1 一 个 糟糕 的 例子 

我 们 喜欢 先 举 一 个 有 错误 的 例子 一 -这 有 利于 了 解 所 采用 的 正确 方法 的 动机 。 

为 了 激发 关于 文件 锁 的 讨论 ， 举 一 个 例子 : 一 个 进程 建立 文件 而 另 一 个 进程 读 该 文件 。 
文件 是 一 个 记录 的 链表 ， 每 条 记录 保存 一 个 整 型 数据 和 下 一 条 记录 的 偏 移 量 。 链 表 是 有 序 的 ， 
但 记录 的 物理 位 置 是 按照 它们 创建 的 顺序 排列 的 。 每 条 记录 的 结构 是 : 


struct rec { 
int r_data; 
off_t r_next; 


M 

如 果 以 1000、999 和 998 这 样 的 顺序 将 数据 插入 到 记录 中 ， 文 件 看 起 来 就 会 像 图 7-2 那 样 。 
第 一 条 记录 只 是 一 个 头 ， 指 明了 链表 从 哪里 开始 。 

该 例 的 main 程 序 启动 了 一 个 子 进程 (process1) 来 建立 链表 ， 而 父 进程 (process2) 
重复 地 遍历 它 来 检查 它 形成 得 是 否 正确 : 

int main(void) 


t 
pid_t pid; 


if (pid == 0) 

process1(); 999 
else { 

ec_negl( waitpid(pid, NULL, 0) ) 


d 
exit (EXIT_SUCCESS) ; 
-2 记录 的 
EC_CLEANUP_BGN 187-2 tema 
exit (EXIT_FAILURE) ; 
EC_CLEANUP_END 
$ 


对 于 数据 ， 在 写 了 头 记录 之 后 ，process1 只 需要 从 1000 向 后 计数 : 


#define DBNAME *termdb* 


static void process1 (void) 
{ 
int dbfd, data; 
struct rec r; 


ec_negl( dbfd = open(DBNAME, O_CREAT | O_TRUNC | O_RDWR, PERM_FILE) ) 
memset (&r, 0, sizeof(r)); 
ec_false( writerec(dbfd, &r, 0) ) 
for (data = 100; data >= 0; data--) 
ec_false( store(dbfd, data) ) 
ec_negl( close(dbfd) ) 
exit (EXIT_SUCCESS) ; 


EC_CLEANUP_BGN 
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exit (EXIT_FAILURE) ; 


EC_CLEANUP_END 
} 


为 了 使 1O 操 作 容易 ， 有 两 个 函数 : 一 个 是 writerec， 它 能 在 一 个 指定 偏 移 处 写 一 条 记 
R; 一 个 是 readrec， 它 能 从 一 个 偏 移 处 读 取 一 个 记录 。 它 们 都 把 部 分 读 、 部 分 写 或 文件 结 
尾 当 作 错 误 : 


bool readrec(int dbfd, struct rec *r, off_t off) 


{ 
ssize_t nread; 


if ((nread = pread(dbfd, r, sizeof(struct rec), off)) == 
sizeof (struct rec)) 
return true; 


if (nread != -1) 
errno = EIO; 
EC_FAIL 


return true; 


EC_CLEANUP_BGN 
return false; 

EC_CLEANUP_END 

H 


bool writerec(int dbfd, struct rec *r, off_t off) 
t 


ssize_t nwrote; 


if ((nwrote = pwrite(dbfd, r, sizeof (struct rec), off)) == 
sizeof (struct rec)) 
return true; 
if (nwrote != -1) 
errno = EIO; 
EC_FAIL 
return true; 


EC_CLEANUP_BGN 
return false; 

EC_CLEANUP_END 

} 


原本 可 以 很 容易 地 直接 使 用 pwrite 和 Pread， 但 该 错误 检查 有 一 点 混乱 ， 因 此 对 它们 进行 
封装 是 有 道理 的 。 
函数 store (从 process1 调 用 的 ) 负责 按 顺 序 保持 链表 。 注 意 ， 它 并 不 会 尝试 最 小 化 O: 


bool store(int dbfd, int data) 
{ 


struct rec r, rnew; 
off_t end, prev; 


ec_negl( end = lseek(dbfd, 0, SEEK_END) ) 





prev = 0; 
ec_false( readrec(dbfd, &r, prev) ) 
while (r.r_next != 0) { 


ec_false( readrec(dbfd, &r, r.r_next) ) 
if (r.r_data > data) 
break; 
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prev = r.r_next; 
} 

ec_false( readrec(dbfd, &r, prev) ) 
rnew.r_next = r.r_next; 

r.r_next = end; 

ec_false( writerec(dbfd, &r, prev) ) 
rnew.r_data = data; 

usleep(1); /* give up CPU */ 
ec_false( writerec(dbfd, &rnew, end) ) 
return true; 


EC_CLEANUP_BGN 
return false; 

EC_CLEANUP_END 

) 


在 store 上 花 一 点 时 间 就 能 清楚 地 了 解 它 。 注 意 到 ， 它 能 恰当 地 处 理 新 记录 在 开头 或 结 
尾 的 情况 。 在 结尾 附近 对 us leep 的 调用 (KRIME) 只 是 为 了 放弃 CPU 而 让 其 他 进程 运行 
一 下 。 在 复杂 程序 中 ， 这 是 很 自然 的 ， 但 在 这 个 简单 的 例子 中 ， 必 须 强制 它 执行 ， 因 为 需要 
所 要 演示 的 其 他 进程 并 发 运行 。 

下 面 是 检查 文件 完整 性 的 process2: 


static void process2 (void) 
t r 

int try, dbfd; 

struct rec rl, r2; 


for (try = 0; try < 10; try++) 
if ((dbfd = open(DBNAME, O_RDWR)) == -1) { 
if (errno == ENOENT) { 
continue; 
) 
else 
EC_FAIL 
) 
ec_negl( dbfa ) 
for (try = 0; try < 100; try++) { 
ec_false( readrec(dbfd, &rl, 0) ) 
while (rl.r_next != 0) { 
ec_false( readrec(dbfd, &r2, rl.r_next) ) 
if (rl.r_data > r2.r_data) ( 
printf ("Found sorting error (try ¢d)\n", try): 
break; 


ec_negl( close(dbfd) ) 
return; 


EC_CLEANUP_BGN 
exit (EXIT_FAILURE) ; 
EC_CLEANUP_END 
) 
这 里 尝试 了 几 次 才 打 开 了 数据 库 , 因为 要 花费 process1 一 点 时 间 来 调度 并 完成 调用 open。 
然后 ， 程 序 重复 地 (100 次 ) 浏览 链表 检查 错误 ， 如 那些 丢失 的 记录 或 次 序 颠倒 的 数据 。 


下 面 的 内 容 确 实 是 我 运行 程序 时 所 得 到 的 : 
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ERROR: 0: process2 [/aup/c7/f1.c:107] readrec(dbfd, &r2, ri.r_next) 
1: readrec [/aup/c7/fl.c:17] 0 
*** EIO (5: "I/O error") *** 


由 于 当 process2 查 找 新 记录 时 ，store 打 算 向 数据 库 结 尾 写 人 的 新 记录 还 没有 被 写 入 ， 
所 以 导致 了 这 个 特殊 的 错误 。 

现在 ， 我 们 的 程序 并 不 能 正常 工作 ， 它 没有 完全 完成 ， 其 不 工作 的 特殊 原因 在 于 两 个 进 
程 正在 访问 同一 个 文件 ， 而 且 其 中 一 个 进程 发 现 了 不 一 致 的 数据 。 它 们 需要 协调 。 

现在 ， 你 了 解 到 本 节 所 讲 内 容 的 动机 了 吗 ? 


7.11.2 用 信号 量 作文 件 锁 


一 个 明显 的 ， 可 以 修正 上 一 节 所 讲 示例 的 方法 是 使 用 信号 量 阻止 process2 查 看 一 个 不 
一 致 的 文件 。 使 用 7.9.2 节 中 的 SimpleSem 接 口 ， 可 以 定义 一 个 如 下 的 全 局 变量 : 


static struct SimpleSem *sem; 


每 个 进程 独立 地 打开 信号 量 ， 如 下 行 这 样 : 

ec_null( sem = SimpleSemOpen("sem*) ) 

另外 ，pProcess1 首 先 增加 信号 量 值 以 指示 该 数据 库 是 一 致 的 : 
ec_false( SimpleSemPost (sem) ) 


store 中 的 关键 代码 行 是 那些 在 恰当 的 位 置 更 新 记录 ， 而 在 结尾 存储 新 记录 的 代码 行 : 


ec_false( SimpleSemWait(sem) ) 
ec_false( readrec(dbfd, &r, prev) ) 
rnew.r_next = r.r_next; 

r.rnext = end; 

ec_false( writerec(dbfd, &r, prev) ) 
rnew.r_data = data; 

usleep(1); /* give up CPU */ 
ec_false( writerec(dbfd, &rnew, end) ) 
ec_false( SimpleSemPost (sem) ) 


而 process2 中 的 关键 代码 行 是 那些 遍历 链表 的 行 : 


for (try = 0; try < 100; try++) ( 
ec_false( SimpleSemwWait (sem) ) 
ec_false( readrec(dbfd, &r1, 0) ) 
while (rl.r_next != 0) { 
ec_false( readrec(dbfd, &r2, rl.r_next) ) 
if (rl.r_data > r2.r_data) { 
printf ("Found sorting error (try td)\n", try); 
break; 
d 
rl = r2; 
} 
ec_false( SimpleSemPost (sem) ) 
} 


有 了 这 些 改 变 ， 应 用 程序 就 可 以 正确 工作 了 。( 除 FreeBSD 和 Darwin 以 外 ， 在 这 两 个 系统 
上 System V 信 号 量 不 能 正确 地 实现 ， 与 7.9.1 节 所 述 原因 相同 。) 

用 信号 量 作文 件 锁 的 主要 问题 是 ， 对 于 一 个 任意 的 文件 ， 信 号 量 名 字 应 该 是 什么 不 是 很 
清楚 。 对 于 具有 几 个 固定 文件 名 的 应 用 程序 而 言 ， 这 并 不 是 一 个 问题 ， 但 在 处 理 特别 文件 名 
的 应 用 中 非常 难 用 。 必 须 设计 一 些 把 文件 名 映射 成 信号 量 名 的 设施 。 更 精 糕 的 是 ， 有 时 候 仅 


辱 级 进程 间 通 信 327 





需要 锁定 文件 的 一 部 分 ， 这 意味 着 需要 不 同 的 信号 量 对 应 不 同 的 部 分 。 最 后 ， 管 理 信号 量 
(打开 和 关闭 它们 ， 当 它们 无 用 时 ， 删 除 它们 ) 是 一 件 痛苦 的 事 。 


7.11.3 lockf 系 统 调用 
争论 是 否 使 用 信号 量 锁 定 文件 其 实 并 不 是 问题 ， 因 为 UNIX 有 一 个 专门 的 系统 调用 锁定 文 
件 的 某 一 部 分 : 
lockf 一 一 锁定 文件 段 
#include <unistd.h> 
int lock£( 
int fa, /* file descriptor */ 


int op, /* operation */ 
off_t len /* length of section */ 


) 
/* Returns 0 on success or -1 on error (sets errno) */ 





文件 描述 符 必须 打开 用 以 写 人 (0_WRONLY 或 0_RDWR ) 。 

加 锁 或 解锁 某 段 是 从 当前 文件 偏 移 量 (由 read、write 或 1seek 设 置 ) 开始 ， 当 len 为 
正则 向 前 len 字 节 ， 当 len 为 负 则 向 后 。 在 向 后 的 情况 下 ， 处 在 当前 偏 移 量 处 的 字 节 不 是 该 段 
的 一 部 分 。 在 向 前 的 情况 下 ， 不 存在 的 字 节 也 可 以 被 锁定 ， 因 为 文件 还 没有 达到 那么 大 。 如 
果 1len 为 0， 则 该 段 可 以 从 当前 偏 移 量 延伸 到 文件 结尾 ， 甚 至 随 着 文件 增长 而 增 大 。 因 此 ， 要 
锁定 整个 文件 ， 仅 仅 需要 确定 使 偏 移 量 为 0 并 使 用 零 长 度 。 

如 果 要 锁定 的 段 与 已 经 锁定 的 段 有 了 交 迁 ， 则 两 个 段 进行 合并 。 如 果 锁 定 段 的 某 一 部 分 
解除 了 锁定 ， 锁 定 段 缩小 ， 而 且 有 可 能 分 为 两 个 不 连续 的 段 。 

当 进 程 在 文件 上 打开 的 任意 一 个 文件 描述 符 关闭 时 ， 该 进程 在 文件 上 的 所 有 锁 都 将 被 释 
放 ， 即 使 要 关闭 的 文件 描述 符 是 从 传递 给 Ilockf 的 文件 描述 符 独立 获得 〈 即 不 同 的 open) 
的 。9 由 此 得 出 结论 当 进程 终止 时 ， 所 有 的 锁 都 会 被 释放 ， 因 为 那样 会 使 所 有 文件 描述 符 关 
闭 。 当 进程 调用 fork 时 ， 锁 并 不 会 被 继承 。 

下 面 是 关于 op 参数 的 操作 : 

F_LOCK ”锁定 段 ; 如 果 它 的 任何 一 部 分 已 经 由 其 他 进程 锁定 ， 它 将 阻塞 。 

F_TLOCK 像 F_LOCK 一 样 ， 但 如 果 F_LOCK 已 经 阻塞 ， 它 将 返回 - 1， 并 且 设 置 errno 
为 EAGAIN (或 EACCES ) 。 

F_TEST ”不 锁定 ， 但 如 果 F_LOCK 已 经 阻塞 ， 像 F_TLOCK 一 样 ， 将 返回 一 个 错误 。 

F_ULOCK 解除 该 段 的 锁定 。 

在 文件 上 使 用 Lockf， 不 必 有 信号 量 名 或 打开 任何 特别 的 东西 ， 因 为 它 使 用 与 访问 文件 
的 描述 符 相同 的 文件 描述 符 。 因 此 ， 可 以 很 容易 地 把 它 放 和 人 示例 中 来 代替 上 一 节 的 信号 量 调 
用 。 这 里 仅仅 给 出 store 的 关键 部 分 : 


© 来 自 于 FreeBSD 联 机 资料 :“ 这 个 接口 完全 遵循 了 System V 和 IEEE Std 1003.1-1998 (“POSIX.1' ) 的 笨 抽 的 
语义 ， 这 要 求 ， 对 于 一 个 给 定 的 进程 ， 当 某 个 文件 的 任意 一 个 文件 描述 符 被 该 进程 关闭 时 ， 必 须 释放 所 有 
和 该 文件 相关 的 锁 。 这 个 语义 意味 着 应 用 程序 必须 注意 子 程序 库 可 能 访问 的 所 有 文件 。 例 如 ， 如 果 更 新 密 
码 文件 的 程序 在 更 新 时 锁定 了 密码 文件 数据 库 ， 然 后 调用 getpwnam (3) 来 检索 一 条 记录 ， 那 么 因为 
getpwname (3) 对 密码 数据 库 要 进行 打开 、 读 取 和 关闭 操作 ,锁定 可 能 会 丢失 。” 基 于 BSD 的 系统 有 更 好 


的 调用 一 一 flock， 但 它 不 是 标准 的 - 
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ec_negl( lseek(dbfd, 0, SEEK_SET) ) 
ec_negl( lockf(dbfd, F_LOCK, 0) ) 
ec_false( readrec(dbfd, &r, prev) ) 
rnew.r_next = r.r_next; 

r.r_next = end; 

ec_false( writerec(dbfd, &r, prev) ) 
rnew.r_data = data; 

usleep(1); /* give up CPU */ 
ec_false( writerec(dbfd, &rnew, end) ) 
ec_negl( lseek(dbfd, 0, SEEK_SET) ) 
ec_negl( lockf (dbfd, F_ULOCK, 0) ) 


和 process2 的 关键 部 分 : 


for (try = 0; try < 100; tryt+) { 
ec_negl( lseek(dbfd, 0, SEEK_SET) ) 
ec_negl( lockf (dbfd, F_LOCK, 0) ) 
ec_false( readrec(dbfd, &rl, 0) ) 
while (r1.r_next != 0) { 
ec_false( readrec(dbfd, &r2, rl.r_next) ) 
if (rl.r_data > r2.r_data) ( 
printf(*Found sorting error (try %d)\n", try); 
break; 


ec_negl( lseek(dbfd, 0, SEEK_SET) ) 
ec_negl( lockf (dbfd, F_ULOCK, 0) ) 


7.11.4 “文件 锁 的 fcntl 系 统 调用 


也 可 以 使 用 fcnt1 系 统 调用 锁定 文件 ， 它 第 一 次 出 现 是 在 3.8.3 节 中 。 它 的 锁定 功能 是 


lockf 的 超 集 。 下 面 是 fcnt1 对 照 表 的 扼要 重 述 : 


fenti 一 一 控制 打开 的 文件 


#include <unistd.h> 
#include <fcntl.h> 


int fentl( 
int fd, /* file descriptor */ 
int op, /* operation */ 


/* optional argument depending on op */ 


ve 
/* Returns result depending on op or -1 on error (sets errno) */ 





有 3 个 fcnt1 操 作用 于 对 结构 操作 的 锁定 ， 指 向 结构 体 的 指针 作为 第 三 个 参数 传递 : 


struct flock 一 一 fcnt] 文 件 锁定 的 结构 


struct flock { 


short 1_type; lock type: F_RDLCK, F_WRLCK, F_UNLCK */ 


short 1_whence; interpretation of l_start */ 
off_t l_start; start of section */ 
off_t l_len; length of section */ 
pid_t lpid; process holding lock; used with F_GETLK */ 





该 结构 的 三 个 成 员 分 别 为 1_whence、1_start 和 1_1len， 它 们 建立 了 待 操 作 的 段 。 前 
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两 个 参数 和 1seek 参 数 相 似 (1_whence 可 以 是 SEEK_SET、SEEK_CUR 或 SEEK_END)， 而 
1_start 是 相对 当前 文件 的 偏 移 量 或 者 相对 文件 结尾 的 绝对 值 。 段 长 度 由 1_len 给 出 。 

对 lockf， 只 有 一 种 类 型 的 锁 ， 但 对 fcnt1 既 可 以 有 读 锁 又 可 有 写 锁 ， 或者， 通常 称 为 
共享 锁 和 独占 锁 。 段 上 的 共享 锁 会 禁止 该 段 上 的 独占 锁 ; 独占 锁 也 会 禁止 共享 锁 或 独占 锁 。 
实践 中 ， 当 只 需要 读数 据 时 ， 设 置 共享 锁 ， 而 当 写 数据 时 ,设置 独 占 锁 。 

在 1_type 成 员 中 指定 锁 的 类 型 ， 对 照 表 中 所 示 的 第 三 个 选择 是 解除 段 锁定 。 

现在 ， 开 始 解释 fcnt1 的 加 锁 操作 ， 这 是 非常 简单 的 : 

F_SETLK 如果 可 能 ， 在 结构 中 执行 指定 的 操作 。 如 果 不 能 立即 设 定 锁 ， 则 返回 - 1， 并 
将 errno 设 置 为 EAGAIN 或 EACCES; 也 就 是 说 ， 不 阻塞 。 

F_SETLKW 就 像 F_SETLK 一 样 ， 但 是 如 果 不 立 刻 设置 锁 ， 会 阻塞 。 

F_GETLK ”如果 有 任何 阻塞 ， 返回 结构 中 引起 指定 锁 阻 塞 的 第 一 个 锁 的 信息 。 利 用 这 些 
结果 (包括 拥有 该 锁 的 进程 的 进程 ID) 重 写 传 人 结构 的 所 有 成 员 。 如 果 传 递 来 的 锁 不 阻塞 ， 
那么 除了 第 一 个 成 员 会 被 变 为 F_UNLCK 外 ， 结 构 将 按 原样 传 回 。 

因此 ，fcnt1 加 锁 功 能 可 以 完成 Lockf 能 做 的 所 有 事 。 另 外 ， 它 还 区 分 共享 锁 和 独占 锁 ， 
可 以 检索 已 存在 的 锁 的 信息 。 通 常 ， 把 1ockf 作 为 fcnt1 之 上 的 库 函 数 来 实现 ， 但 并 不 要 求 
必须 这 么 做 。 同 样 ，[SUS2002] 提 到 不 应 该 假定 这 两 个 函数 操纵 的 锁 是 相同 的 。 也 就 是 说 ， 如 
果 使 用 Lockf 加 销 ， 那 么 不 要 使 用 fcnt1 解 锁 。 事 实 上 ， 甚 至 不 期 望 fcnt1 知 道 该 锁 。 

和 1ockf 锁 一 样 ， 当 对 文件 打开 的 文件 描述 符 关闭 或 者 当 进程 终止 时 ， 由 fcnt1 设 置 的 
锁 将 被 释放 ， 而 且 当 进程 调用 fork 时 ， 它 们 也 不 被 继承 。 


7.11.5 建议 锁 和 强制 锁 


用 lockf 和 fcnt1 设 置 的 锁 通常 只 影响 那些 函数 调用 ， 而 不 影响 其 他 IO 操作 。 也 就 是 说 ， 
如 果 用 1ockf 在 文件 上 设置 一 个 锁 ， 然 后 另 一 个 进程 在 没有 调用 lockf 的 情况 下 写 该 文件 ， 
那么 写 操作 会 继续 。 这 叫做 建议 锁 ， 显 然 ， 只 有 所 有 进程 通过 适当 地 调用 lockf 或 fcnt1 进 


行 合作 ， 它 才 会 起 作用 。 
强制 锁 是 指 一 旦 设置 了 锁 ， 就 真 的 能 禁止 冲突 的 IO 操作 。POSIX 和 SUS 标 准 根本 不 指定 


强制 锁 ， 但 也 不 禁止 使 用 它 。 

在 那些 支持 强制 锁 的 系统 上 ， 调 用 lockf 或 fcnt1 时 没有 任何 不 同 。 相 反 可 以 利用 在 其 
他 方面 没有 意义 的 权限 集合 来 标记 文件 : 打开 设置 组 ID 执行 位 ， 关 闭 组 执行 位 。 下 面 是 使 用 
建议 锁 或 强制 锁 的 例子 ， 具 体 使 用 哪 种 锁 要 取决 于 参数 : 


int main(int argc, char *argvf]) 
{ 

int fd; 

mode_t perms = PERM_FILE; 


if (fork() == 0) { 
sleep(1); /* wait for parent */ 
ec_negi( fd = open("tmpfile*, O_WRONLY | O_NONBLOCK) ) 
ec_negl( write(fd, "x", 1) ) 
printf ("child wrote OK\n"); 
} 
else { 
(void) unlink ("tmpfile") ; 
if (arge == 2) 
perms |= S_ISGID; /* mandatory locking */ 
ec_negl( fd = open(*tmpfile", O_CREAT | O_RDWR, perms) ) 
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ec_negl( lockf (få, F_LOCK, 0) ) 
printf ("parent has lock\n"); 
ec_negl( wait(NULL) ) 

} 

exit (EXIT_SUCCESS) ; 


EC_CLEANUP_BGN 

exit (EXIT_FAILURE) ; 
EC_CLEANUP_END 
) 


下 面 是 在 Solaris 上 运行 的 结果 ， 其 中 有 强制 锁 : 


$ lockftest 
parent has lock 
child wrote OK 
$ lockftest x 
parent has lock 
ERROR: 0: main [/aup/c7/lockftest.c:11] write(fd, “x", 1) 
*** EAGAIN (11: "Resource temporarily unavailable") *** 


$ 
没有 0_NONBLOCK 标 志 ， 子 进程 中 的 写 操作 将 阻塞 以 等 待 锁 被 释放 。 


7.11.6 高 性 能 数据 库 锁 


由 fcnt1 和 1ockf 系 统 调用 提供 的 文件 锁 ， 即 使 利用 强制 锁 ， 对 高 性 能 数据 库 也 不 合适 ， 
因为 在 处 理 锁 时 有 太 多 的 开销 ， 而 且 要 完善 地 实现 死 锁 检测 和 解除 死 锁 的 算法 非常 困难 。 尽 
管 如 此 ， 通 常 也 是 可 以 实现 的 ， 因 为 大 的 数据 库 系统 运行 在 自己 的 进程 上 ， 所 以 它们 扮演 了 
数据 库 文 件 的 看 门人 角色 。 可 以 很 方便 地 将 锁 保存 在 数据 库 进程 的 地 址 空间 或 由 多 个 数据 库 
进程 共享 的 内 存 中 。 以 这 种 方法 ， 根 本 不 需要 使 用 系统 调用 来 管理 锁 。 
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回顾 5.17 节 ， 进 程 中 的 线程 共享 所 有 静态 数据 一 全 局 数据 和 函数 内 部 的 静态 数据 。 另 一 
方面 ， 即 使 在 没有 exec 的 情况 下 执行 fork， 进 程 也 会 拥有 完全 独立 的 内 存 ， 这 种 情况 下 ， 
子 进程 会 得 到 一 份 父 进程 地 址 空间 的 副本 。 

使 用 共享 内 存 ， 可 以 为 各 个 独立 的 进程 分 配 一 些 共同 的 内 存 。 和 线程 一 样 ， 它 们 通常 需 
要 使 用 互 斥 或 信号 量 协调 对 该 内 存 的 访问 。 

与 消息 和 信号 量 一 样 ， 共 享 内 存 既 有 System V 版 本 的 也 有 POSIX 版 本 的 。 对 于 这 两 种 机 
制 ， 每 个 进程 都 “打开 ”一 个 共享 内 存 段 ， 并 且 得 到 一 个 指向 该 内 存 的 指针 ， 以 后 用 普通 的 C 
或 C++ 算 子 释放 它 ， 而 不 需要 系统 调用 。 通 常 ， 每 个 进程 的 指针 有 不 同 的 值 ， 这 个 值 只 有 在 
那个 进程 中 才 有 意义 ， 但 所 指向 的 内 存 是 一 样 的 。 和 前 面 一 样 ， 先 从 System V 共 享 内 存 开始 
介绍 ， 然 后 再 介绍 POSIX 共 享 内 存 。 


7.13 System V 共 享 内 存 


至 此 ， 你 应 该 对 System V IPC 调 用 怎么 工作 很 熟悉 了 。7.4 节 中 讲 到 ， 如 果 愿 意 可 以 使 用 
ftok 得 到 关键 字 ， 使 用 Xget (shmget) 调用 来 得 到 一 个 标识 符 。 使 用 Xct1 (shmct1) 
调用 来 控制 它 。 在 共享 内 存 的 情况 下 ， 可 以 用 shmat 调 用 把 共享 内 存 绑 定 到 进程 上 ，shmat 
将 返回 一 个 指针 ， 当 工作 完毕 时 ， 可 以 调用 shmdt 来 断 开 共享 链接 。 
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7.13.1 System V 共享 内 存 系统 调用 
下 面 是 System V 共 享 内 存 系统 调用 的 对 照 表 : 
shmget 一 一 得 到 共享 内 存 段 


#include <sys/shm.h> 
int shmget ( 














key_t key, /* key */ 
size_t size, /* size of segment */ 
int flags /* creation flags */ 









ve 
/* Returns shared-memory identifier or -1 on error (sets errno) */ 


shmetl 一 一 控制 共享 内 存 段 


#include <sys/shm.h> 






int shmetl( 
int shmid, /* identifier */ 
int cmd, /* command */ 
struct shmid_ds *data /* data for command */ 













ve 
/* Returns 0 on success or -1 on error (sets errno) */ 


struct shmid_ds 一 一 shmctl 的 结构 


struct msqid_ds { 
struct ipc_perm shm perm; /* permission structure */ 









size_t shm_segsz; /* size of segment in bytes */ 

pid_t shm_lpid; /* process ID of last shared memory op */ 
pid_t shm_cpid; /* process ID of creator */ 

shmatt_t shm_nattch; /* number of current attaches */ 

time_t shm_atime; /* time of last shmat */ 

time_t shm_dtime; /* time of last shmdt */ 






time_t shm_ctime; time of last change by shmctl */ 









shmat 一 一 连接 共享 内 存 段 


#include <sys/shm.h> 










void *shmat ( 







int shmid, /* identifier */ 
const void *shmaddr, /* desired address or NULL */ 
int flags /* attachment flags */ 






) 
/* Returns pointer or -1 on error (sets errno) */ 


shmdt 一 一 断 开 共享 内 存 段 


#include <sys/shm.h> 





int: shmdt ( 
const void *shmaddr /* pointer to segment */ 


WG 
/* Returns 0 on success or -1 on error (sets errno) */ 





像 所 期 望 的 那样 ， 调 用 shmget 可 以 访问 共享 内 存 段 ， 在 需要 时 可 以 使 用 标志 IPC_CREAT 
和 IPC_PRIVATE 创 建 它 。size 参 数 只 在 该 段 创 建 后 才 有 意义 。 新 创建 的 段 初始 值 为 0。 

接 下 来 ， 要 使 用 该 段 ， 还 要 调用 shmat 来 给 该 段 一 个 指针 。 奇 怪 的 是 ， 出 现 错误 时 
shmat 返 回 的 是 -1 而 不 是 NULL 值 。 之 所 以 这 样 做 是 因为 它 不 会 返回 会 被 误 认为 是 - 1 的 指 
H 事实 上 ， 几 乎 所 有 的 UNIX 系 统 中 返回 的 指针 都 是 偶数 。 
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当 使 用 该 段 工 作 完毕 后 ， 调 用 shmdt ， 并 把 从 shmat 得 到 的 指针 而 不 是 标识 符 传 进来 。 
该 段 会 一 直 存在 直到 被 彻底 清除 (用 shmct1 或 者 ipcrm 命 令 ) 或 者 机 器 重启 ， 因 此 可 以 自 
由 地 重新 连接 它 。 但 可 能 会 得 到 不 同 的 指针 。 

通常 情况 下 ， 我 们 并 不 关心 shmat 会 给 我 们 什么 样 的 地 址 ， 所 以 可 以 将 第 二 个 参数 设 定 
为 NULL。 但 如 果 需 要 ， 也 可 以 试 着 强制 让 它 给 你 分 配 用 shmadadr 指 定 的 地 址 。 如 果 不 行 ， 
是 因为 地 址 已 经 被 占用 或 者 是 无 效 的 ， 这 样 它 将 会 失败 ， 并 把 errno 设 置 为 EINVAL。 还 有 
一 个 标志 SHM_RND， 用 来 将 地 址 四 舍 五 入 为 合适 的 整数 ， 但 这 里 不 详细 介绍 它 了 。 另 一 个 标 
志 是 SHM_RDONLY， 设 置 它 后 ， 可 以 以 只 读 方式 连接 此 段 。 

使 用 shmct1 和 其 他 的 Xct1 系 统 调用 ， 使 用 的 是 相同 的 命令 ，IPC_STAT、IPC_SET 和 
IPC_RMID。IPC_SET 设 置 shm_perm.uid、shm_perm.gid 以 及 shm_perm.mode 的 低 9 位 。 

下 面 是 一 个 简单 的 程序 ， 显 示 了 如 何在 两 个 进程 之 间 共享 内 存 段 (小 的 段 ): 


static int *getaddr (void) 
{ 

key_t key; 

int shmid, *p; 


(void) close(open("shmseg*, O_WRONLY | O_CREAT, 0)); 

ec_negi( key = ftok("shmseg", 1) ) 

ec_negl( shmid = shmget (key, sizeof(int), IPC_CREAT | PERM_FILE) ) 
ec_negl( p = shmat(shmid, NULL, 0) ) 

return p; 


EC_CLEANUP_BGN 
return NULL; 

EC_CLEANUP_END 

} 


int main(void) 
{ 
pid_t pid; 


if ((pid = fork()) == 0) { 
int *p, prev = 0; 


ec_null( p = getaddr() ) 
while (*p != 99) 
if (prev != *p) { 
printf ("child saw %d\n*, *p); 
prev = *p; 


} 
printf ("child is done\n"); 
} 
else { 
int *p; 


ec_null( p = getaddr() ) 
for (tp = 1; *p < 4; (*p)++) 
sleep(1); 
*p = 99; 
} 
exit (EXIT_SUCCESS) ; 


EC_CLEANUP_BGN 
exit (EXIT_FAILURE) ; 

EC_CLEANUP_END 

J 
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每 个 进程 都 调用 getaddr; 其 中 一 个 创建 了 该 段 ， 其 他 的 仅仅 是 访问 它 。 下 面 是 得 到 的 
输出 : 

$ shmex 

child saw 1 

child saw 2 

child saw 3 

$ child saw 99 

child is done 


有 点 奇怪 ， 不 是 吗 ? 为 什么 当 while 循 环 中 断 时 子 进程 报告 它 看 到 了 99 呢 ? 实际 上 ， 下 
行 中 : 

while (*p != 99) 
*P 在 这 一 点 时 等 于 3， 但 是 当 运行 到 这 一 行程 序 : 

printf ("child saw td\n", *p); 


*p 已 经 是 99 了 。($ 提 示 的 出 现 是 因为 父 进 程 没 有 等 子 进程 就 退出 了 ， 这 在 UNIX 操 作 系 统 中 
不 是 缺陷 而 是 很 常见 的 。) 

如 果 再 次 运行 shmex， 还 会 出 现 更 加 奇怪 的 事 : 

$ shmex 

child is done 

$ 

程序 终止 了 ! 不 是 , 实际 上 错误 在 于 该 段 在 shmex 第 一 次 终止 时 状态 没 变 一 一 没有 断 开 ， 
其 值 仍然 是 99。 所 以 当 第 二 次 执行 时 ， 甚 至 父 进 程 在 到 达 for 循 环 之 前 , 子 进程 已 看 到 了 99。 
显然 当 shmex 终 止 时 通过 删除 该 段 可 以 解决 该 问题 。 但 要 明白 一 点 : 共享 内 存 需 慎重 
对 待 ! 


713.2 共享 内 存 和 信号 量 


上 一 节 讲 的 示例 出 错 还 有 非常 细微 的 原因 : 正如 使 用 线程 时 所 看 到 的 ( 见 5.17.3 节 )， 不 
能 假定 对 *p 的 引用 是 原子 的 。 一 般 来 说 ， 如 果 没 有 以 信号 量 的 形式 做 一 些 控制 ， 就 不 能 在 进 
程 间 共享 内 存 。 因 此 ， 本 节 将 讨论 这 个 问题 (getaddr 没 有 改变 ): 


int main(void) 
{ 
pid_t pid; 


ec_false( SimpleSemRemove(*shmexsem") ) 
if ((pid = fork()) == 0) { 

struct SimpleSem *sem; 

int *p, prev = 0, n; 


ec_null( sem = SimpleSemOpen(*shmexsem") ) 
ec_null( p = getaddr() ) 
while (true) { 

ec_false( SimpleSemwWait(sem) ) 


n= *p; 
ec_false( SimpleSemPost (sem) ) 
if (n == 99) 


break; 
if (prev != n) { 
printf ("child saw $d\n", n); 
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prev = ni 
F 

} 

printf ("child is done\n"); 

ec_false( SimpleSemClose(sem) ) 
} 
else ( 

struct SimpleSem *sem; 

int *p, i; 


ec_null( sem = SimpleSemOpen(*shmexsem") ) 
ec_null( p = getaddr() ) 
*p = 0; 
ec_false( SimpleSemPost (sem) ) 
for (i = 1; i < 4; i++) ( 
ec_false( SimpleSemWait (sem) ) 
*p = i; 
ec_false( SimpleSemPost (sem) ) 
sleep(1); 
} 
ec_false( SimpleSenWait (sem) ) 
*p = 99; 
ec_false( SimpleSemPost (sem) ) 
ec_false( SimpleSemClose(sem) ) 
} 
exit (EXIT_SUCCESS) ; 


EC_CLEANUP_BGN 
exit (EXIT_FAILURE) ; 

EC_CLEANUP_END 

} 


下 面 是 现在 的 输出 一 一 这 个 结果 合理 多 了 : 


$ shmex2 
child saw 1 
child saw 2 
child saw 3 

$ child is done 
shmex2 

child saw 1 
child saw 2 
child saw 3 

$ child is done 


看 看 需要 加 以 保护 的 所 有 变化 : 

。 子 进程 把 *p 分 配给 用 信号 量 加 锁 的 本 地 内 存 ， 然 后 自由 地 使 用 信号 量 解锁 的 本 地 内 存 ; 

。 类 似 地 ， 父 进程 在 for 循 环 中 用 了 一 个 本 地 变量 ， 锁 定 了 信号 量 仅 用 于 访问 共享 内 存 ; 
。 最 初 ， 信 号 量 是 锁定 的 (0 值 )， 所 以 父 进 程 可 以 自由 地 把 共享 内 存 初始 值 赋 0。 然 后 调 
用 simpleSemPost 继 续 运行 。 如 果 在 那 一 刻 ， 子 进程 访问 了 共享 内 存 ， 一 切 正常 。 这 
个 版 本 可 以 重复 运行 ， 因 为 ， 每 次 运行 时 都 将 初始 化 内 存 段 。 

* 在 每 次 运行 开始 时 删除 信号 量 ， 以 便 信 号 量 从 0 开始 。 

虽然 已 经 解决 了 原子 问题 ， 但 子 进程 的 效率 仍然 不 高 。 再 看 一 下 循环 找 找 原因 : 


while (true) { 
ec_false( SimpleSemWait(sem) ) 
n= *Di 
ec_false( SimpleSemPost (sem) ) 
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if (n == 99) 
break; 
if (prev != n) { 
printf ("child saw %d\n*, n); 
prev = n; 
} 
} 


子 进程 反复 循环 工作 ， 对 信号 量 加 锁 又 解锁 ， 但 是 仅仅 在 值 改变 时 才 执行 一 些 任务 (输出 )。 
它 的 多 数 运行 是 多 余 的 ， 所 有 的 加 锁 使 信号 量 无 效 而 没有 任何 原因 。 当 值 变化 时 ， 父 进程 才 
告诉 子 进程 ， 不 是 更 好 吗 ? (这 就 是 在 5.17.4 节 中 使 用 条 件 变量 的 动机 。) 

可 以 用 两 个 信号 量 代替 一 个 信号 量 来 修正 该 程序 : 为 了 向 共享 内 存 中 写 人 ， 必 须 锁定 信 
SEW; 读 共享 内 存 时 使 用 信号 量 R。 父 进程 在 写 操作 前 等 待 W， 在 写 完成 后 设置 2。 子 进程 
在 读 操 作 前 等 待 R， 然 后 在 完成 后 ， 设 置 W。 开 始 时 ，W 初 始 化 为 1，R 初 始 化 为 0。 下 面 是 改 
进 的 代码 (getaddr 仍 然 未 变化 ): 


int main(void) 
{ 
pid_t pid; 


ec_false( SimpleSemRemove(*shmexsem") ) 
if ((pid = fork()) == 0) { 

struct SimpleSem *semR, *semW; 

int *p, n; 


ec_null( semR = SimpleSemOpen(*shmexsemR") ) 
ec_null( semW = SimpleSemOpen(*shmexsem") ) 
ec_null( p = getaddr() ) 
while (true) ( 
ec_false( SimpleSemWait(semR) ) 
n= *p; 
ec_false( SimpleSemPost (semW) ) 
if (n == 99) 
break; 
printf ("child saw %d\n", n); 
} 
printf ("child is done\n"); 
ec_false( SimpleSemClose(semR) ) 
ec_false( SimpleSemClose(semw) ) 
} 
else { 
struct SimpleSem *semR, *semw; 
int *p, i; 


ec_null( semR = SimpleSemOpen(*shmexsemR*) ) 
ec_null( semW = SimpleSemOpen(*shmexsemi") ) 
ec_null( p = getaddr() ) 
“p= 0; 
ec_false( SimpleSemPost (sem) ) 
for (i = 1; i < 4; i++) { 
lse( SimpleSemWait(semW) ) 
*p = i; 
ec_false( SimpleSemPost (semR) ) 
sleep(1); 
} 
ec_false( SimplesemWait (semw) ) 
*p = 99; 
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ec_false( SimpleSemPost(semR) ) 
ec_false( SimpleSemClose(semR) ) 
ec_false( SimpleSemClose(semw) ) 


F 
exit (EXIT_SUCCESS) ; 


EC_CLEANUP_BGN 
exit (EXIT_FAILURE) ; 

EC_CLEANUP_END 

} 


可 以 看 到 ， 子 进程 不 再 用 prev 来 判别 什么 时 候 共享 内 存 会 变化 ， 因 为 现在 如 果 没 有 变化 ， 
子 进程 永远 不 会 得 到 semR。 这 种 方法 更 有 效 ! 


7.13.3 System V 的 SMI 共 享 内 存 实现 

现在 扩展 上 一 节 的 想法 用 共享 内 存 和 信号 量 来 实现 SMI 函 数 ， 我 们 已 经 用 FIFO( 见 7.3.3 
节 ) 和 消息 ( 见 7.5.3 节 和 7.7.2 节 ) 实现 过 了 。 

像 前 面 示例 讲 过 的 那样 ， 服 务 器 和 每 一 个 客户 端 使 用 单独 的 共享 内 存 段 和 两 个 信号 量 来 
接收 消息 。 所 以 ， 如 果 有 两 个 客户 端 ， 将 有 3 个 共享 的 内 存 段 和 6 个 信号 量 。 这 种 方法 没有 消 
息 队列 一 每 一 个 内 存 段 一 次 持 有 一 个 消息 ， 直 到 消息 接收 完成 前 ， 不 能 写 人 新 消息 ， 并 且 
会 设 定 写 信号 量 ( W)。 这 不 是 最 好 的 设计 ， 因 为 每 一 个 客户 端 只 能 和 服务 器 的 服务 速度 相同 。 
但 是 ， 从 这 种 方法 可 以 看 出 共享 内 存 是 如 何 使 用 的 ， 这 就 是 我 们 的 目的 。 

图 7-3 显 示 了 该 服务 器 和 两 个 客户 端 。 它 们 共用 着 共享 内 存 段 mem-server; 客户 端 1 和 
服务 器 共用 段 mem-1; 客户 端 ? 和 服务 器 共用 段 mem-2。 在 不 移动 消息 的 情况 下 ， 三 个 进程 
中 的 每 一 个 都 能 访问 共享 内 存 段 中 的 消息 。 
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图 7-3 带 有 两 个 客户 端的 服务 器 共享 内 存 
在 System V 共 享 内 存 的 SMI 实 现 中 ， 假 定 读者 对 本 章 的 前 几 节 讲 过 的 FIFO 的 实现 和 消息 
队列 的 实现 是 熟悉 的 ， 所 以 对 前 面 讲 过 的 细节 ， 这 里 不 再 详细 解释 。 
回顾 可 知 ，SMI 函 数 是 专门 为 了 允许 在 进程 中 适当 位 置 处 理 消息 而 设计 的 ， 发 送 操作 和 接 
收 操作 被 分 成 “getaddr” 和 “release” 两 个 函数 。 在 早期 的 实现 中 ， 它 的 好 处 不 是 很 明显 ， 


但 在 这 个 实现 中 ， 将 会 看 到 它 的 优势 。 
对 每 一 个 共享 内 存 段 ， 我 们 将 利用 System V 信 号 量 的 其 中 一 个 特征 ， 并 且 使 用 一 个 包含 
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两 个 信号 量 的 信号 量 集 。 信 号 量 0 是 读 信号 量 ，1 是 写 信号 量 。 下 面 为 那些 数字 和 在 其 上 操作 


的 semwait 与 sempost 操 作 定 义 一 些 宏 : 


#define SEMI_READ 0 


#define SEMI_WRITE 1 
#define SEMI_POST 1 
#define SEMI_WAIT -1 


给 定 一 个 信号 量 ， 用 函数 op_semi 对 其 进行 操作 。 例 如 ， 为 内 存 段 设 定 写 信号 量 ， 执 行 ; 


ec_negl( op_semi (semid_receiver, 


下 面 是 op_semi 的 代码 : 


static int op_semi(int semid, int sem_num, 


t 
struct sembuf sbuf; 
int r; 


sbuf.sem_num = sem_num; 
sbuf.sem_op = sem_op; 
sbuf.sem_flg = 0; 
ec_negl( r = semop(semid, &sbuf, 
return r; 

EC_CLEANUP_BGN 
return -17 

EC_CLEANUP_END 

) 


还 有 一 个 能 方便 初始 化 信号 量 的 函数 : 


static int init_semi(int semid) 
{ 

union semun arg; 

int r; 


arg.val = 0; 
semctl (semid, SEMI_WRITE, 
semctl (semid, SEMI_READ, SETVAL, 


/* Following call will set otime, allowing clients to proceed. 
op_semi (semid, SEMI_WRITE, SEMI_POST) ) 


ec_negl( r= 
return r; 


EC_CLEANUP_BGN 

return -1; 
EC_CLEANUP_END 
) 


SETVAL, 


ij} 


arg); 
arg); 


下 面 是 SMI 使 用 的 SMIQ 类 型 的 内 部 数据 结构 : 


typedef struct { 





SMIENTITY sq_entity; is 
int sq_semid_server; 12 
int sq semid client; 1 
int sq_shmid_server; 7# 
int sq_shmid_client; ” 
struct smi_msg *msg_server; /* 
struct smi_msg *msg_client; /* 


char sq_name[SERVER_NAME_MAX] ; /* 
struct client_id sq client; /* 
} SMIQ_SHM; 


entity 
server 
client 
server 
client 
ptr to 
ptr to 
server 
client 


SEMI_WRITE, SEMI_POST) ) 


int sem_op) 


sf 


“z 

sem */ 

sem (client only) */ 

shm ID */ 

shm ID (client only) */ 

server shm */ 

client shm (client only) */ 
name */ 

identification (server only) */ 


客户 端 几 乎 要 使 用 整个 结构 ， 但 是 服务 器 仅仅 需要 使 用 其 中 一 些 成 员 。 客 户 端 保存 的 内 
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容 是 : 
。 客 户 端 的 实体 (SMI_CLIENT) 和 服务 器 名 字 ; 
。 客 户 端 和 服务 器 的 信号 量 集 ID (每 个 信号 量 集 有 2 个 信号 量 ) ; 
。 客 户 端 和 服务 器 的 共享 内 存 段 ID; 
。 指 向 客户 端 和 服务 器 内 存 段 的 指针 (从 shmat 中 )。 
服务 器 保存 的 内 容 : 
“服务 器 的 实体 (SMI_SERVER) 和 名 字 ; 
。 它 的 信号 量 集 ID (2 个 信号 量 ) ; 
。 它 的 共享 内 存 段 ID; 
。 指 向 服务 器 段 的 指针 。 
。 向 smi_send_getaddr 传 递 client_id， 以 便 可 以 在 随后 的 smi_send_release 中 
使 用 。 这 样 它 能 知道 要 向 哪 一 个 客户 端 发 送 。 为 此 ， 在 消息 中 ，client_id 结 构 中 的 
成 员 c_id1 是 共享 内 存 的 标识 符 ， 而 成 员 c_id2 是 信号 量 集 的 标识 符 。( 可 以 在 下 面 的 
smi_send_getaddr_shm 代 码 中 看 到 这 些 成 员 在 哪里 设置 . ) 
服务 器 不 保存 任何 客户 端的 信号 量 集 或 共享 内 存 的 信息 ， 因 为 有 许多 的 客户 端 。 这 些 信 
息 可 以 很 轻松 地 通过 从 客户 端 接 收 的 消息 传递 过 来 ， 就 如 在 System V 消 息 队列 SMI 实 现时 ， 
消息 队列 ID 在 消息 中 传递 的 方式 一 样 ( 见 7.5.3 节 )。 很 快 就 会 看 到 这 些 细节 。 
在 说 明了 结构 如 何 使 用 后 ，smi_open_shm 的 代码 应 该 是 很 容易 理解 的 : 


SMIQ *smi_open_shm(const char *name, SMIENTITY entity, size_t msgsize) 
{ 

SMIQ_SHM *p = NULL; 

char shmname[FILENAME_MAX] ; 

int i; 

key_t key; 


ec_null( p = calloc(1, sizeof (SMIQ_SHM)) ) 
p->sq_entity = entity; 
if (strlen(name) >= SERVER_NAME_MAX) { 
errno = ENAMETOOLONG; 
EC_FAIL 
} 
strcpy(p->sq_name, name); 
mkshm_name_server(p, shmname, sizeof (shmname)) ; 
(void) close(open(shmname, O_WRONLY | O_CREAT, 0)); 
ec_negl( key = ftok(shmname, 1) ) 
if (p->sq_entity == SMI_SERVER) ( 
if ((p->sq_semid_server = semget (key, 2, PERM_FILE)) != -1) 
(void) shmct1 (p->sq_semid_server, IPC_RMID, NULL); 
ec_negl( p->sq_semid_server = semget (key, 2, 
PERM_FILE | IPC_CREAT) ) 
p->sq_semid_client = -1; 
if ((p->sq_shmid_server = shmget(key, 0, PERM_FILE)) != -1) 
(void) shmct1(p->sq_shmid_server, IPC_RMID, NULL); 
ec_negl( p->sq_shmid_server = shmget (key, msgsize, 
PERM_FILE | IPC_CREAT) ) 
p->sq_shmid_client = -1; 
ec_negl( init_semi(p->sq_semid_server) ) 
} 
else { 
ec_neg1( p->sq_semid_server = semget (key, 2, PERM_FILE) ) 
ec_negl( p->sq_semid_client = semget (IPC_PRIVATE, 2, 
PERM_FILE | IPC_CREAT) ) 
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ec_negl( p->sq_shmid_server = shmget (key, msgsize, PERM_FILE) ) 
ec_negl( p->sq_shmid_client = shmget(IPC_PRIVATE, msgsize, 
PERM_FILE | IPC_CREAT) ) 

ec_negl( p->msg_client = shmat(p->sq_shmid_client, NULL, 0) ) 
ec_negl( init_semi(p->sq_semid_client) ) 
for (i = 0; !smi_client_nowait & i < 10; i++) { 

union semun arg; 

struct semid_ds ds; 


arg.buf = &ds; 
ec_negl( semct1(p->sq_semid_server, SEMI_WRITE, IPC_STAT, 
arg) ) 
if (ds.sem_otime > 0) 
break; 
sleep(1); 
} 

了 
ec_negl( p->msg_server = shmat(p->sq_shmid_server, NULL, 0) ) 
return (SMIQ *)p; 


EC_CLEANUP_BGN 
free(p); 
return NULL; 

EC_CLEANUP_END 

} 


通过 对 ftok 的 调用 ， 代 码 的 第 一 部 分 和 前 面 7.5.3 节 中 针对 System V 消 息 队列 的 该 函数 的 
代码 几乎 一 样 。 对 服务 器 来 说 ， 如 果 有 旧 的 信号 量 设置 ， 就 删除 它 并 创建 一 个 新 的 ， 对 于 共 
享 内 存 段 也 是 一 样 。 客 户 端 创建 了 私有 的 信号 量 集 和 共享 内 存 段 。 它 们 都 连接 到 了 服务 器 的 
共享 内 存 段 。 

注意 init_semi (前 面 提 到 的 )， 它 设置 了 写 信号 量 (允许 继续 发 送 ) ， 也 设置 了 操作 次 
数 ， 这 样 ， 其 他 的 进程 便 可 以 判别 出 信号 量 已 经 被 初始 化 了 ， 就 像 7.9.1 节 所 讲 的 一 样 。 在 那 
节 ， 曾 提出 了 实现 SimpleSem 的 一 个 等 待 算法 ; 这 里 的 算法 更 精细 了 : 

为 FreeBSD 和 Darwin 系 统 不 设置 次 数 ， 并 且 也 不 想 被 阻塞 ， 所 以 我 们 最 多 尝试 10 次 。 
。 有 一 个 隐藏 的 全 局 变量 smi_client_nowait， 它 可 以 用 于 阻止 任何 等 待 。 当 知道 服 
务 器 在 所 有 客户 端 之 前 正当 启动 时 ， 在 计时 测试 期 间 才 使 用 它 。 本 章 结尾 的 比较 表 中 使 
用 了 程序 中 产生 的 数据 。 

smi_close_shm 十 分 简单 : 


bool smi_close_shm(SMIQ *sqp) 
{ 
SMIQ_SHM *p = (SMIQ_SHM *)sqp; 





if (p->sq_entity == SMI_SERVER) ( 
char shmname [FILENAME_MAX] ; 


(void) getaddr (+1); 
ec_negl( semctl(p->sq_semid_server, 0, IPC_RMID) ) 
(void) shmdt (p->msg_server) ; 
(void) shmct1 (p->sq_shmid_server, IPC_RMID, NULL); 
mkshm_name_server(p, shmname, sizeof (shmname)) ; 
(void) unlink (shmname) ; 

} 

else { 
ec_negl( semct1(p->sq_semid_client, 0, IPC_RMID) ) 
(void) shmdt (p->msg_server) ; 
(void) shmdt (p->msg_client) ; 
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(void) shmct1 (p->sq_shmid_client, IPC_RMID, NULL); 
} 
free(p); 
return true; 


EC_CLEANUP_BGN 
return false; 
EC_CLEANUP_END 
} 
现在 准备 讲述 smi_send_getaddr_shm: 


bool smi_send_getaddr_shm(SMIQ *sqp, struct client_id *client, 
void **addr) 
{ 
SMIQ_SHM *p = (SMIQ_SHM *)sqp; 
int semid_receiver; 
if (p->sq_entity == SMI_SERVER) { 
semid_receiver = client->c_id2; 
p->sqclient = *client; 
) 


else 
semid_receiver = p->sq_semid_server; 
ec_negl( op_semi(semid_receiver, SEMI_WRITE, SEMI_WAIT) ) 
if (p->sq_entity == SMI_SERVER) 
- ec_null( *addr = getaddr(client->c_idl) ) 
else { 
‘addr = p->msg_server; 
((struct smi_msg *)*addr)->smi_client.c_idl = p->sq_shmid_client; 
((struct smi_msg *)*addr)->smi_client.c_id2 = p->sq_semid_client; 
} 


return true; 


EC_CLEANUP_BGN 

return false; 

EC_CLEANUP_END 

) 

对 于 从 服务 器 的 发 送 ， 参 数 cl ient 必 须 指向 客户 端 标识 符 ; 而 对 于 从 客户 端的 发 送 ， 该 
参数 为 NULL。 先 跟踪 用 于 服务 器 的 代码 ， 然 后 是 客户 端的 代码 。 

如 先前 所 提 到 的 ， 对 于 服务 器 来 说 ， 通 过 成 员 c_id2 来 设置 semid_receiver， 而 且 保 
存 整个 client_id 结 构 以 便 以 后 由 smi_send_release 使 用 。 然 后 等 待 SEMI_WRITE 信 号 
量 。 已 经 在 init_semi 中 设置 了 它 ， 所 以 ， 可 以 立刻 开始 运行 。 消 息 本 身 处 在 由 client- 
>c_id1 给 出 的 共享 内 存 段 中 ， 可 以 调用 getaddzr 得 到 它 的 地 址 ， 该 地 址 就 是 通过 addr 参 数 
返回 的 结果 。 稍 后 就 可 以 看 到 getaddr; 现在 ， 可 以 认为 它 只 运行 shmat 的 情况 。 

对 客户 端 来 说 ， 实 际 上 更 简单 ， 因 为 客户 端 已 经 得 到 了 访问 它 自身 和 服务 器 的 共享 内 存 
段 以 及 信号 量 所 需要 的 所 有 东西 。 它 直接 从 SMIQ_SHM 结 构 中 设置 semid_receiver， 然 后 
等 待 SEMI_WRITE 信 号 量 ， 设 置 返回 地 址 ， 然 后 将 标识 符 保存 在 其 共享 内 存 段 和 信号 量 设置 
的 消息 中 。 这 样 接收 者 (服务 器 ) 就 知道 是 谁 在 发 送 消息 以 及 如 何 进行 应 答 了 。 

一 旦 smi_send_getaddr_shm 返 回 了 ， 它 的 调用 者 就 可 以 任意 使 用 该 消息 的 返回 地 址 ， 
而 那 段 内 存 被 锁定 了 以 防 其 他 客户 端 进一步 的 写 操作 。( 效 率 有 点 低 ， 前 面 提 过 了 一 一 如 果 设 
置 一 个 接收 服务 器 的 消息 池 应 该 会 好 些 ， 当 然 实 现 起 来 会 更 复杂 .) 

当 调 用 者 执行 完成 时 ， 它 会 调用 smi_send_release: 


LE ABS 341 





bool smi_send_release_shm(SMIQ *sqp) 
{ 
SMIQ_SHM *p = (SMIQ_SHM *)sqp; 
int semid_receiver; 


if (p->sq_entity == SMI_SERVER) 
semid_receiver = p->sq_client.c_id2; 
else 
semid_receiver = p->sq_semid_server; 
ec_neg1( op_semi(semid_receiver, SEMI_READ, SEMI_POST) ) 
return true; 





EC_CLEANUP_BGN , 
return false; 

EC_CLEANUP_END 

} 


该 函数 需要 做 的 内 容 是 设置 SEMI_READ 信 号 量 , 但 是 那样 做 需要 信和 号 量 集 标识 符 。 对 服 
务 器 来 说 ,标识 符 是 在 client_id 中 , 而 smi_send_getaddr 将 client_id 保 存在 了 
SMIQ_SHM 结 构 中 ; 对 于 客户 端 ， 在 一 开始 就 把 它 放 在 了 那个 结构 中 。 

现在 ， 应 该 能 够 很 容易 地 理解 smi_receive_getaddr_shm 了 : 


“ bool smi_receive_getaddr_shm(SMIQ *sqp, void **addr) 
{ 
SMIQ_SHM *p = (SMIQ_SHM *)sqp; 
int semid_receiver; 


if (p->sq_entity == SMI_SERVER) 
semid_receiver = p->sq_semid_server; 
else 
semid_receiver = p->sq_semid_client; 
ec_negl( op_semi(semid_receiver, SEMI_READ, SEMI_WAIT) ) 
if (p->sq_entity == SMI_SERVER) 
*addr = p->msg_server; 
else 
*addr = p->msg_client; 
return true; 


EC_CLEANUP_BGN 
return false; 

EC_CLEANUP_END 

z 


响应 函数 smi_receive_release_shm 必 须 设 置 SEMI_WRITE 信 号 量 : 


bool smi_receive_release_shm(SMIQ *sqp) 
£ 

SMIQ_SHM *p = (SMIQ_SHM *)sqp; 

int semid_receiver; 





if (p->sq_entity == SMI_SERVER) 
semid_receiver = p->sq_semid_server; 
else 
semid_receiver = p->sq_semid_client; 
ec_negl( op_semi(semid_receiver, SEMI_WRITE, SEMI_POST) ) 
return true; 


EC_CLEANUP_BGN 
return false; 

EC_CLEANUP_END 

I 
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就 这 样 了 。 对 信号 量 的 解释 已 经 很 多 了 ， 但 却 很 少 有 关于 共享 内 存 的 。 如 果 消 息 非常 大 (如 ， 
100 000 字 节 )， 就 能 获得 巨大 的 成 功 。 消 息 队列 (不 论 System V 还 是 POSIX) 可 能 甚至 不 能 
处 理 那么 大 的 消息 ， 即 使 能 够 实现 ， 对 每 一 条 消息 ， 从 用 户 空间 复制 到 内 核 ， 然 后 再 从 内 核 
复制 到 用 户 空间 实际 上 是 很 慢 的 。 相 反 ， 共 享 内 存 SMI 实 现 的 速度 是 独立 于 消息 的 大 小 的 。 


7.13.4 评论 System V 共 享 内 存 

System V 共 享 内 存 的 系统 调用 是 相当 容易 理解 的 、 有 效率 的 ， 而 且 通 常 很 容易 实现 ， 因 
此 不 要 太 讨厌 它 。 困 难 的 部 分 是 同步 问题 ， 它 也 是 使 用 线程 的 难点 ， 而 且 是 因为 完全 相同 的 
原因 : 一 旦 共享 了 什么 东西 ， 程 序 运行 就 快 了 ， 但 可 能 会 出 现 错误 ， 而 改正 错误 的 工作 是 非 
常 难 于 测试 的 。 必 须要 证 明 它 是 正确 的 ， 然 后 毫 无 错误 地 实现 它 。9 


7.14 ” POSIX 共享 内 存 


这 一 节 将 介绍 POSIX 共享 内 存 系统 调用 ， 并 介绍 一 种 使 用 POSIX 共享 内 存 和 POSIX 信号 
量 实现 的 SMI。 


7.14.1 POSIX 共享 内 存 系统 调用 


POSIX 共享 内 存 涉及 使 用 POSIX IPC 名 字 来 打开 (或 许 还 创建 ) 共享 内 存 段 ， 这 可 能 会 
带 来 7.6.2 节 中 所 描述 的 POSIX IPC 名 字 的 麻烦 问题 。shm_open 调 用 返回 了 一 个 文件 描述 符 ， 
就 像 已 经 打开 了 文件 一 样 。 事 实 上 ，POSIX 共 享 内 存 段 更 像 一 个 内 存 文件 。 一 旦 打开 ， 就 可 
以 用 在 2.17 节 中 见 过 的 ftruncate 来 设置 大 小 ， 就 像 正在 设置 文件 大 小 一 样 。 然 后 把 这 个 内 
存 段 用 mmap 映 射 为 地 址 空间 ，mmap 通 常用 于 映射 文件 ， 而 不 仅 是 共享 内 存 段 。 换 句 话说 ， 
只 有 shm_open 和 shm_unlink 是 POSIX 共 享 内 存 所 特有 的 ， 其 他 调用 对 于 所 有 当 规 文件 都 
可 以 使 用 。 
下 面 是 共享 内 存 特有 的 调用 : 
shm_open 一 一 打开 共享 内 存 对 象 
#include <sys/mman.h> 
int shm_open( 
const char *name, /* POSIX IPC name */ 


int flags, /* flags */ 
mode_t perms /* permissions */ 


) 
/* Returns file descriptor or -1 on error (sets errno) */ 


shm_unlink 一 删除 共享 内 存 对 象 
#include <sys/mman.h> 


int shm_unlink( 
const char *name /* POSIX IPC name */ 


B 
/* Returns 0 on success or -1 on error (sets errno) */ 





那些 shm_open 的 标志 是 在 面向 文件 的 系统 调用 中 已 经 见 过 的 标志 : O_CREZT. 


O 大 约 在 30 年 前 ， 我 的 一 个 同事 曾 说 过 如 果 程序 不 需要 必须 是 正确 的 ， 他 可 以 让 程序 的 速度 任意 快 一 他 将 
改变 程序 使 其 只 输出 0， 然 后 扔 掉 所 有 其 他 代码 。 因 此 ， 如 果 不 能 确保 共享 内 存 或 线程 的 使 用 是 正确 的 ， 那 
么 就 不 要 使 用 这 些 特性 一 一 虽然 慢 点 但 只 要 正确 就 会 更 有 效 。 
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0_EXCL、0_TRUNC、0_RDONLY 和 0_RDWR。 不 能 使 用 0_WRONLY。 如 果 对 象 是 新 建 的 ， 那 
么 第 三 个 参数 会 建立 它 的 权限 。 

和 其 他 的 POSIX 及 System V IPC 对 象 一 样 ，POSIX 共享 内 存 对 象 的 内 容 将 持续 存在 ， 至 
少 直到 系统 重新 启动 。 

当 使 用 close 处 理 它 时 ， 可 以 关闭 该 文件 描述 符 ， 就 像 其 他 所 有 文件 描述 符 一 样 。 

[SUS2002] 没 有 讲 可 以 在 共享 内 存 对 象 上 实现 UO ， 例 如 使 用 read 和 write， 对 于 实现 ， 
可 能 是 允许 那样 做 。 像 任何 其 他 文件 一 样 ， 这 可 能 是 一 种 使 用 内 存 文件 的 方法 。 使 用 内 存 文 
件 的 整个 要 点 在 于 : 在 该 文件 上 可 以 使 用 一 般 的 C 或 C++ 操作 ， 无 需 使 用 MO 系 统 调用 ， 因 此 ， 
即使 支持 这 种 特性 ， 也 不 是 特别 有 用 。 

通常 ， 在 新 建 一 个 共享 内 存 对 象 以 后 ， 可 以 使 用 ftruncate 设 置 其 大 小 ， 因 为 其 原始 大 
小 是 0 字 节 。 下 面 是 对 2.17 节 中 的 ftruncate 的 对 照 表 的 回顾 : 


ftruncate 一 一 通过 文件 描述 符 截 短 或 加 长 文件 


#include <unistd.h> 


int ftruncate( 


int fd, /* file descriptor */ 
off_t length /* new length */ 


Me 
/* Returns 0 on success or -1 on error (sets errno) */ 





接 下 来 ， 将 该 对 象 映射 到 地 址 空间 (类似 于 在 System V 共享 内 存 对 象 上 使 用 shmat ) : 
mmap 一 一 映射 内 存 页 


#include <sys/mman.h> 


void *mmap( 
void *addr, /* desired address or NULL */ 
size_t len, /* length of segment */ 
int prot, /* protection (see below) */ 
int flags, /* flags */ 
int fd, /* file descriptor */ 
off_t off /* offset in file or shared-memory object */ 


) 
/* Returns pointer to segment or MAP_FAILED on error (sets errno) */ 





第 一 个 参数 addr 是 该 段 映射 地 址 附近 的 一 个 地 址 ,或 者 更 准确 地 说 ， 如 果 在 f1ags 参 数 中 
设置 了 MAP_FIXED， 它 就 是 该 段 应 该 被 映射 的 地 址 。 否 则 ， 它 就 是 NULL。 这 就 意味 着 你 将 
获得 任意 地 址 ， 这 是 最 常见 的 情况 。 在 本 书 的 例子 中 ， 将 采用 这 种 方式 来 处 理 。 

被 映射 的 对 象 部 分 在 对 象 内 部 开始 于 off 并 扩展 了 len 个 字 节 。 没 有 必要 一 次 映射 整个 对 
象 (大 小 由 ftruncate 设 置 )， 尽 管 在 本 例 中 是 那样 做 的 ， 因 此 off 将 设 为 零 ， 而 len 将 和 
ftruncate 中 的 参数 一 样 。 

参数 prot 或 者 是 prot_none ( 即 根本 不 能 访问 内 存 ) ， 或 者 是 下 面 一 个 或 多 个 标志 的 或 
操作 : 

PROT_READ 数据 可 读 。 

PROT_WRITE 数据 可 写 。 

PROT_EXEC 数据 可 执行 (可 能 不 支持 )。 

为 了 达到 目的 ， 这 里 需要 使 用 PROT_READ| PROT_WRITE。 同 时 ， 对 这 些 标志 参数 来 说 ， 
将 要 使 用 的 唯一 标志 是 MRP_SHARED ， 这 意味 着 对 段 的 任何 改变 都 将 立即 可 见 。 
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MAP_PRIVATE 是 可 选项 ， 它 表示 改变 对 调用 mmap 进 程 是 私有 的 。MAP_PRIVATE 对 于 共享 
内 存 来 说 并 没有 意义 。 

mmap 是 那些 返回 指针 的 函数 中 的 另 一 个 ， 它 有 一 个 针对 错误 返回 的 专门 符号 一 
MAP_FAILED。 要 确保 对 其 进行 测试 且 值 不 能 为 NULL. 

因此 ， 所 有 上 述 内 容 是 指 如 果 想 要 映射 共享 内 存 的 所 有 对 象 进行 读 与 写 ， 那 么 可 以 如 下 
操作 : 


ec_negl( ftruncate(fd, len) ) 
mem = mmap(NULL, len, PROT_READ | PROT_WRITE, MAP_SHARED, fd, 0); 
ec_cmp (mem, MAP_FAILED) 


当 完 成 了 段 的 映射 时 ， 要 取消 对 它 的 映射 : 
munmap 一 一 取消 内 存 页 映射 


#include <sys/mman.h> 
int munmap( 


void *addr, /* pointer to segment */ 
size_t len /* length of segment */ 


和 
/* Returns 0 on success or -1 on error (sets errno) */ 





没有 必要 取消 (unmap) 所 有 已 映射 的 段 ， 但 是 在 本 书 所 有 例子 中 都 会 这 么 做 。 因 此 ， 
addr 将 是 mmap 所 返回 的 值 ， 而 len 则 等 于 传递 给 mmap 的 值 。 


7.14.2 POSIX 的 SMI 共 享 内 存 实 现 
除了 代替 不 同 的 信号 量 对 象 外 ，SMI 函 数 的 POSIX 共 享 内 存 实现 和 system V 共 享 内 存 的 
实现 ( 见 7.13.3 节 ,在 继续 之 前 有 必要 温习 一 下 ) 非常 相似 ， 我 们 打算 利用 POSIX 信 号 量 特性 
并 使 用 内 存 中 的 信号 量 来 实现 。 因 为 它们 必须 由 服务 器 和 客户 端 共享 ， 所 以 将 其 放 和 人 共享 内 
存 段 。 
更 准确 地 说 ， 每 一 个 共享 内 存 段 〈 一 个 用 作 服务 器 ， 一 个 用 作客 户 端 ) 均 有 如 下 结构 : 
struct shared_mem ( 
sem_t sm_semw; 
sem_t sm_sem_r; 
struct smi_msg sm_msg; /* variable size -- must be last */ 
) 
smi_msg 的 数据 部 分 扩展 到 了 段 的 尾部 ， 其 大 小 由 smi_open_pshm 使 用 如 下 宏 所 传递 的 数 
据 来 计算 : 
#define MEM_SIZE(s)\ 
(sizeof (struct shared_mem) - sizeof(struct smi_msg) + (s)) 
这 里 s 是 smi_open_pshm 的 第 三 个 参数 。 
#define SEMI_READ 0 
给 定 一 个 指针 指向 共享 内 存 中 的 struct shared_mem， 下 面 是 一 个 很 方便 的 函数 ， 它 
可 以 执行 smwait、sempost 或 撤消 操作 : 


#define SEMI_WRITE 1 
#define SEMI_DESTROY 2 
#define SEMI_POST 1 
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define SEMI_WAIT -1 
static int op_semi(struct shared mem *m, int sem num, int sem_op) 
{ 

sem_t *sem_p = NULL; 


if (sem_num == SEMI_WRITE) 
sem_p = &m->sm_sem_w; 
else 
sem_p = &m->sm_sem_r; 
switch (sem op) ( 
case SEMI_WAIT: 
ec_negl( sem wait(sem p) ) 
break; 
case SEMI_POST: 
ec_negl( sem post(sem p) ) 
break; 
case SEMI_DESTROY: 
ec_negl( sem destroy (sem p) ) 
) 


return 0; 


EC_CLEANUP_BGN 

return -1; 
EC_CLEANUP_END 
} 


因此 ， 如 果 m 是 这 样 一 个 指针 ， 那 么 我 们 就 能 像 下 面 这 样 调用 : 


ec_neg1( op_semi(m, SEMI_READ, SEMI_POST) ) 
ec_negl( op_semi(m, SEMI_WRITE, SEMI_WAIT) ) 


POSIX 调 用 不 允许 客户 端 随同 消息 一 起 只 为 共享 内 存 段 传递 一 个 标识 符 给 服务 器 。 相 反 ， 


必须 用 与 7.3.3 节 中 讲述 的 FIFO 的 类 似 方法 : 客户 端 传递 它 的 进程 ID ， 服 务 器 使 用 它 形成 对 象 
的 POSIX 名 字 ， 然 后 打开 并 映射 它 。 由 于 这 样 做 开销 较 大， 所 以 服务 器 对 每 个 客户 端 只 做 一 
次 ， 并 在 表 中 查询 一 个 已 经 映射 的 段 。 所 有 的 这 些 都 被 存储 在 SMIQ_PSHM 结 构 中 ， 访 结构 以 


一 个 目前 大 家 已 经 很 熟悉 的 形式 出 现 : 
‘define MAX_CLIENTS 50 


typedef struct ( 
SMIENTITY sq_entity; 
char sq_name [SERVER_NRAME_MRAX] ; 
int sq_srv_fd; 
struct shared_mem *sq_srv_mem; 
struct client ( 
pid_t cl_pid; 
int cl_fd; 
struct shared_mem *cl_mem; 
} sq_clients [MAX_CLIENTS] ; 
struct client_id sq_client; 
size_t sq msgsize; 
} SMIQ_PSHM; 


/* entity */ 

/* server name */ 

server shm file descriptor */ 
server mapped shm segment */ 


client process ID */ 
client shm file descriptor */ 
/* client mapped shm segment */ 
/* client uses only (0) */ 

/* client id (server only) */ 

/* message size */ 


yt 
J» 


服务 器 能 跟踪 50 个 客户 。 在 实现 中 ， 客 户 端 完全 消失 是 客户 端 通知 服务 器 它 已 完成 的 一 


种 方法 ， 以 便服 务 器 能 重新 利用 它 的 位 置 。 


ME, 来 看 看 SMIQ_PSHM 结 构 是 如 何 由 smi_open_pshm 配 置 的 : 
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SMIQ *smi_open_pshm(const char ‘name, SMIENTITY entity, size_t msgsiz 
t 

SMIQ_PSHM *p = NULL; 

char shmname[SERVER_NAME_MAX + 50]; 


ec_null( p = calloc(1, sizeof (SMIQ_PSHM)) ) 
p->sq_entity = entity; 
p->sq_msgsize = msgsize; 
if (strlen(name) >= SERVER_NAME_MAX) { 
errno = ENAMETOOLONG; 
EC_FAIL 
} 
strepy(p->sq_name, name); 
mkshm_name_server(p, shmname, sizeof (shmname)); 
if (p->sq_entity == SMI_SERVER) ( 
if ((p->sa_srv_fd = shm_open(shmname, O_RDWR, PERM_FILE)) ! 
(void) shm_unlink (shmname) ; 
(void) close (p->sq_srv_fd) ; 
} 
ec_negl( p->sq_srv_fd = shm_open(shmname, O_RDWR | O_CREAT, 
PERM_FILE) ) 
ec_negl( ftruncate(p->sq_srv_fd, MEM_SIZE(msgsize)) ) 
P->Sq_srv_mem = mmap(NULL, MEM_SIZE(msgsize), 
PROT_READ | PROT_WRITE, MAP_SHARED, p->sq_srv_fd, 0); 
ec_cmp(p->sq_srv_mem, MAP_FAILED) 
ec_negl( sem_init (&p->sq_srv_mem->sm_sem_w, true, 1) ) 
ec_negl( sem_init (&p->sq_srv_mem->sm_sem_r, true, 0) ) 
} 


else { 
ec_neg1( p->sq_srv_fd = shm_open(shmname, O_RDWR, PERM_FILE) 
P->Sq_srv_mem = mmap(NULL, MEM SIZE(msgsize), 
PROT_READ | PROT_WRITE, MAP_SHARED, p->sq_srv_fd, 0); 
ec_cmp(p->sq_srv_mem, MAP_PAILED) 
mkshm_name_client(getpid(), shmname, sizeof (shmname) ) ; 





if ((p->sq_clients(0].cl_fd = shm_open(shmname, O_RDWR, PERM_FILE)) 


t= -1) ( 
(void) shm_unlink(shmname) ; 
(void) close (p->sq_clients(0] .cl_fd); 
} 
ec_neg1( p->sq_clients[0] .cl_fd = shm_open(shmname, 
O_RDWR | O_CREAT, PERM_FILE) ) 
ec_negl( ftruncate(p->sq_clients[0].cl_fd, MEM_SIZE(msgsize) ) 
p->sq_clients[0].cl_mem = mmap(NULL, MEM_SIZE(msgsize), 


PROT_READ | PROT_WRITE, MAP_SHARED, p->sq_clients[0).cl_fd, 0); 


ec_cmp(p->sq_clients[0].cl_mem, MAP_FAILED) 
ec_neg1( sem init (&p->sq_clients(0].cl_mem->sm_semw, true, 
1) ) 
ec_negl( sem_init (&p->sq_clients[0).cl_mem->sm_sem_r, true, 
0) ) 
) 
return (SMIQ *)p; 


EC_CLEANUP_BGN 
if (p NULL) 
(void) smi_close_pshm((SMIQ *)p); 
return NULL; 
EC_CLEANUP_END 
} 





static void mkshm_name_server(const SMIQ_PSHM *p, char *shmname, 
size_t shmname_max) 


e) 


=i} 


) 


) 
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{ 
snprintf(shmname, shmname_max, */smipshm-%s*, p->sq_name); 


J: 


static void mkshm_name_client (pid_t pid, char *shmname, 
size_t shmname_max) 

{ 

snprintf(shmname, shmname_max, */smipshm-td", pid); 

} 

上 述 代码 的 前 几 行 (一 直到 调用 mkshm_name_server 为 止 ) 和 以 前 所 讲 的 实现 一 样 。 


m 


然后 服务 器 新 建 了 一 个 全 新 的 共享 内 存 对 象 (HRTAN), RRA, HRE. — uE 
成 这 些 ， 那 些 信 号 量 便 在 内 存 中 了 ， 而 且 已 经 初始 化 了 。 

客户 端 也 映射 到 了 服务 器 段 内 ， 但 它 既 不 设置 其 大 小 也 不 初始 化 服务 器 的 信号 量 ， 因 为 
服务 器 已 经 做 了 那些 工作 。 尽 管 如 此 ， 客 户 端 确实 要 新 建 、 设 置 、 映 射 它 自己 的 段 (客户 端 
要 使 用 数组 的 第 一 个 元 素来 映射 该 段 )， 而 且 也 要 初始 化 它 自己 的 信号 量 。 

正如 所 说 过 的 ， 因 为 服务 器 事先 并 不 知道 客户 端 可 能 会 是 谁 , 所 以 直到 从 客户 端 得 到 了 消 
息 ， 服 务 器 才 会 在 客户 端的 段 内 映射 。 这 里 有 一 个 函数 〈 下 面 马上 就 会 见 到 ) ， 服 务 器 可 以 使 
用 它 得 到 客户 端 段 的 映射 地 址 ， 而 它 只 需要 知道 客户 的 进程 ID， 就 像 前 面 见 过 那样 ， 该 进程 
ID 被 包含 在 从 客户 端 发 送 到 服务 器 的 每 条 消息 中 : 


static struct client *get_client(SMIQ_PSHM *p, pid_t pid) 
t 

int i, avail = -1; 

char shmname [SERVER_NAME_MAX + 50]; 


for (i = 0; i < MAX_CLIENTS; i++) ( 
if (p->sq_clients[il.cl_pid == pid) 
return &p->sq_clients[i]; 
if (p->sq clients[i] .cl pid == 0 && avail == -1) 
avail = i; 
$ 
if (avail == -1) { 
errno = EADDRNOTAVAIL; 
EC_FAIL 
) 
p->sq_clients [avail] .cl_pid = pid; 
mkshm_name_client (pid, shmname, sizeof (shmname) ); 
ec_negi( p->sq_clients{avail].cl_fd = shm_open(shmname, O_RDWR, 
PERM_FILE) ) 
p->sq_clients[avail].cl_mem = mmap(NULL, MEM_SIZE(p->sq_msgsize), 
PROT_READ | PROT_WRITE, MAP_SHARED, p->są clients (avail) .cl_fd, 
0); 
ec_cmp(p->sq_clients [avail] .cl_mem, MAP_FAILED) 
return &p->sq_clients{avail]; 


EC_CLEANUP_BGN 
return NULL; 

EC_CLEANUP_END 

} 


为 了 解 使 用 中 的 get_client， 来 看 看 下 面 的 smi_send_getaddr_pshm: 
bool smi_send_getaddr_pshm(SMIQ *sqp, struct client_id ‘client, 


void **addr) 
{ 
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SMIQ_PSHM *p = (SMIQ_PSHM *)sqp; 
struct client ‘cp; 
struct shared_mem *sm; 


if (p->sq entity == SMI_SERVER) { 
p->sq_client = *client; 
ec_null( cp = get_client(p, client->c_idl) ) 
sm = cp->cl_mem; 

} 

else 
sm = p->sq_srv_mem; 

ec_negl( op_semi(sm, SEMI_WRITE, SEMI_WAIT) ) 

if (p->sq_entity == SMI_CLIENT) 
sm->sm_msg.smi_client.c_idl = getpid(); 

*addr = &sm->sm_msg; 

return true; 


EC_CLEANUP_BGN 
return false; 

EC_CLEANUP_END 

} 


回顾 可 知 ， 参 数 cl ient 仅 在 服务 器 发 送 消息 时 才 被 使 用 它 从 其 前 面 获得 的 消息 中 得 到 
该 结构 。c_id1 成 员 是 进程 ID 并 且 那 是 要 传递 给 get_client 的 内 容 。 对 于 客户 端 而 言 ， 服 
务 器 的 段 地 址 正好 在 SMIQ_PSHM 结 构 中 。 借 助 段 地 址 ， 可 以 等 待 写 信号 量 ， 并 且 ， 当 它 可 用 
时 ， 该 段 便 由 我 们 来 使 用 。 客 户 端 然后 将 进程 ID 存 储 在 消息 中 ， 并 且 返 回 该 地 址 。 

和 它 相 应 的 是 smi_send_release_pshm: 


bool smi_send_release_pshm(SMIQ *sqp) 
{ 
SMIQ_PSHM *p = (SMIQ_PSHM *)sqp; 
struct client *cp; 
struct shared_mem *sm; 


if (p->sq_entity == SMI_SERVER) { 
ec_null( cp = get_client(p, p->sq_client.c_idl) ) 
sm = cp->cl_mem; 

} 

else 
sm = p->sq_srv_mem; 

ec_negl( op_semi(sm, SEMI_READ, SEMI_POST) ) 

return true; 


EC_CLEANUP_BGN 

return false; 

EC_CLEANUP_END 

} 

当 服务 器 调用 此 函数 时 ， 该 函数 就 会 调用 get_client 通 过 使 用 smi_send_ 
getaddr_pshm 保 存 的 进程 ID (c_id1 成 员 ) 来 得 到 客户 端的 段 地 址 。 客 户 端的 段 已 经 补 
smi_send_getaddr_pshm 了 映射 一 这 里 只 需要 查询 它 就 可 以 了 。 作 为 一 个 客户 端 ， 就 像 以 
前 一 样 ， 服 务 器 的 段 正好 在 SMIQ_PSHM 结 构 中 。 一 旦 拥有 这 个 段 ， 唯 一 要 做 的 工作 就 是 设置 
段 内 的 读 信号 量 。 这 将 允许 smi_receive_getaddr_pshm 在 段 内 执行 ， 就 像 下 面 将 要 看 到 
的 这 样 : 

bool smi_receive_getaddr_pshm(SMIQ *sqp, void **addr) 

í 
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SMIQ_PSHM *p = (SMIQ_PSHM *)sqp; 
struct shared_mem *sm; 


if (p->sq_entity == SMI_SERVER) 
sm = p->Sq_srv_mem; 
else 
sm = p->sq_clients[0].cl_mem; 
ec_negl( op_semi(sm, SEMI_READ, SEMI_WAIT) ) 
*addr = &sm->sm_msg; 
return true; 


EC_CLEANUP_BGN 
return false; 

EC_CLEANUP_END 

} 


因为 服务 器 和 客户 端 各 自 都 从 自己 的 段 接收 ， 所 以 地 址 是 可 得 到 的 并 能 正确 传递 给 
op_semi。 没 有 必要 调用 get_c1lient。 一 旦 段 可 读 ， 就 将 返回 地 址 。 
最 后 ， 一 旦 接收 者 完成 了 读 操 作 ，smi_receive_release_pshm 就 能 为 接收 段 设置 写 


信号 量 : 


bool smi_receive_release_pshm(SMIQ *sqp) 


{ 
SMIQ_PSHM *p = (SMIQ_PSHM *)sqp; 
struct shared_mem *sm; 


if (p->sq_entity == SMI_SERVER) 
sm = p->sq_srv_mem; 
else 
sm = p->sq_clients (0) .cl_mem; 
ec_negl( op_semi(sm, SEMI_WRITE, SEMI_POST) ) 
return true; 


EC_CLEANUP_BGN 
return false; 

EC_CLEANUP_END 

} 


如 果 你 还 没有 把 这 个 实现 和 7.13.3 节 中 的 System V 的 共享 内 存 实现 进行 比较 ， 那 么 现在 就 
应 该 做 了 。 你 会 发 现 它们 非常 相似 ， 但 也 有 如 下 不 同 之 处 : 
* 对 于 System V 调 用 ， 客 户 端 可 以 传人 每 一 个 消息 共享 内 存 段 和 信号 量 设置 的 标识 符 ， 这 
样 服务 器 可 以 利用 它们 来 快速 访问 对 象 。 因 此 ， 服 务 器 不 需要 用 表 来 跟踪 客户 端 。 
。 对 于 POSIX 调 用 ， 可 以 使 用 内 存 中 的 信号 量 ( 其 位 于 共享 内 存 中 )， 而 不 是 单个 的 信号 
量 对 象 。 理 论 上 说 ， 这 应 该 会 使 速度 更 快 ， 但 快 与 否 依赖 于 具体 的 实现 。 


7.14.3 评论 POSIX 共 享 内 存 

对 共享 内 存 而 言 ，POSIX 接 口 和 System V 接 口 基本 同样 方便 。 至 于 说 哪个 更 有 效 要 取决 
于 具体 的 实现 ,但 是 ， 具 有 两 者 的 任何 实现 在 内 核 中 很 可 能 会 使 用 相同 的 内 部 机 制 。 

POSIX 共 享 内 存 的 关键 优势 在 于 其 映射 调用 mmap， 它 不 仅仅 适用 于 shm_open 所 打开 的 内 
存 文件 ， 还 适用 于 所 有 常规 文件 。 因 此 ， 在 任何 时 刻 ， 映 射 段 的 那 一 部 分 都 会 有 很 多 的 控制 。 

POSIX 共 享 内 存 的 主要 缺点 在 于 它 并 不 总 是 可 用 的 。 例 如 ， 在 Linux、FreeBSD 或 Darwin 
的 某 些 版 本 中 ， 它 是 不 可 用 的 。 
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7.15 性 能 比较 


为 6 种 不 同 的 IPC 方 法 (包括 第 8 章 的 套 接 字 ) 使 用 SMI 实 现 ， 很 容易 构造 一 个 测试 程序 来 
比较 发 送 不 同 大 小 的 消息 的 时 间 。 作 为 测试 ， 我 在 4 个 客户 端 和 一 个 服务 器 之 间 ， 发 送 了 
5 000 条 消息 。 然 后 ， 为 4 个 系统 (Solaris、FreeBSD、Darwin 和 Linux) 给 出 了 归 一 化 的 数字 ， 
该 数字 是 通过 将 原 数 字 除 以 在 各 自 系 统 中 使 用 100 字 节 的 消息 所 用 的 FIFO 时 间 得 到 的 。 否 则 ， 
结果 可 能 会 出 现 误 导 ， 因 为 4 个 系统 在 计算 机 硬件 上 的 差异 会 导致 性 能 上 的 差异 。 表 7-2 列 出 
了 结果 。 仅 仅 通 过 共享 内 存 和 POSIX 消 息 队列 ， 便 可 以 发 送 两 个 大 容量 的 消息 。 同 时 ， 在 编 
写本 书 时 ，FreeBSD、Darwin 和 Linux 还 不 支持 POSIX 消 息 队列 或 POSIX 共 享 内 存 。 


表 7-2 不 同 的 消息 传递 方法 的 性 能 
































方 法 100 字 节 的 消息 | 2 000 字 节 的 消息 | 20 000 字 节 的 消息 | 100 000 字 节 的 消息 
FIFO S:1.00 S:1.22 太 大 了 太 大 了 
B:1.00 B:146 
D:1.00 D:1.29 
L:1.00 EL:151 
System VBA | 5:090 S:1.82 太 大 了 太 大 了 
B:0.62 B:3.76 
1:031 L:0.64 
POSIX 消 息 队列 S:2.02 $:2.40 $:7.03 5:33.39 
System V 共 享 内 存 S:1.47 sasa | sass $:1.24 
B:0.94 B:0.91 B:0.90 B:0.90 
D:1.04 D:1.07 D:1.02 D:1.06 
L:0.55 L:0.53 | Los L:0.51 
POSIX 共 享 内 存 | 5:127 S:1.25 S:141 S:1.37 
ERT S:1.84 S:2.15 S:10.15 S:44.13 
B:0.81 B:1.00 B:7.99 B:35.83 
D:1.04 D:127 D:5.52 D:25.86 
L:0.75 |  Lo9s L:6.06 L:31.91 





S: Solaris; B: FreeBSD; D: Darwin; L: Linux。 对 每 个 系统 时 间 都 进行 了 归 一 化 ， 因 此 传递 100 字 节 消 息 所 用 
的 FIFO 时 间 是 1.00。 套 接 字 使 用 了 AF_UNIX 域 ( 见 第 8 章 )。 


对 结果 的 一 些 解释 : 

。 因 为 这 仅仅 是 一 个 可 能 的 测试 ， 所 以 结果 不 是 确定 的 ，SMI 仅 仅 是 一 个 可 能 的 接口 ， 并 
且 这 里 的 实现 并 不 是 最 佳 的 一 主要 是 设计 它们 来 作为 教科 书 示例 。 

。 即 使 是 归 一 化 的 ， 对 于 一 个 给 定 的 方法 ， 拥 有 较 快速 度 的 系统 并 不 一 定 能 更 好 地 实现 那 
个 方法 。 它 可 能 实现 FIFO ( 归 一 化 的 除数 ) 会 更 慢 些 。 

。 对 小 消息 (100 字 节 左 右 ) ， 在 除了 Darwin6.6 以 外 的 所 有 的 系统 中 ，System V 消 息 队 列 
性 能 最 好 。Darwin6.6 不 支持 小 消息 。 

。 套 接 字 几乎 和 两 种 消息 队列 方法 的 性 能 一 样 (在 某 些 情况 下 甚至 更 好 ) ， 并 能 处 理 任何 
大 小 的 消息 。 另 外 ， 它 们 是 机 器 间 传递 消息 的 唯一 方法 ， 也 包括 Internet 中 的 机 器 ， 尽 
管 时 间 测 试 只 在 单个 机 器 中 使 用 它们 。 

。 在 Solaris 上 ，POSIX 消 息 队列 的 性 能 没有 System V 消息 队列 性 能 好 ， 但 是 ， 它 有 能 处 
理 很 大 消息 的 优势 。 

。 正 如 所 期 望 的 那样 ， 那 两 个 共享 内 存 方法 的 运行 情况 与 消息 大 小 没有 关系 。 
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因此 ， 如 果 必 须 做 一 个 总 结 归纳 ， 那 么 我 们 会 说 ， 为 了 取得 最 好 的 性 能 ， 可 以 将 System 
VY 消 息 队 列 用 于 小 消息 ， 而 将 共享 内 存 用 于 大 消息 。 没 有 尝试 的 想法 是 ， 把 两 者 结合 : 利用 
System V 消 息 来 告诉 服务 器 它 什 么 时 候 有 工作 可 做 ， 而 利用 共享 内 存 段 传递 数据 。 

如 果 最 佳 性 能 不 是 很 关键 ， 而 且 希 望 简化 ， 则 可 以 对 所 有 东西 都 使 用 套 接 字 。 它 们 相当 
有 效 ， 能 控制 任何 大 小 的 消息 ， 普 遍 被 支持 ， 并 且 能 在 机 器 之 间 传 递 。 

这 些 建议 只 是 对 面向 消息 的 IPC 而 言 的 。 对 其 他 目地 的 用 处 ， 一 种 IPC 方 法 可 能 比 另 一 个 
更 好 。 


练习 


前 6 个 练习 要 求 用 POSIX IPC 函 数 或 相关 的 方法 来 实现 System V IPC 函 数 。 在 大 多 数 情况 下 ， 并 不 
能 够 实现 每 个 特性 和 行为 ， 因 此 该 练习 的 一 部 分 是 为 了 仔细 准确 地 评论 你 的 实现 的 不 足 。 


7.1 用 POSIX IPC 函 数 实现 msgget 、msgct1 、msgsnd 以 及 msgrcv。 

7.2 用 System V IPC 函 数 实现 mq_open 、mq_close、mgq_unlink、mgq_send 以 及 mq_receive。 

7.3 使 用 POSIX IPC 函 数 实现 semget 、semct1 以 及 semop， 且 每 个 设置 只 人 允许 一 个 信号 量 。 你 能 处 理 大 
于 1 的 增加 与 减少 吗 ? 

7.4 与 上 一 个 练习 一 样 ， 但 每 个 设置 中 允许 信号 量 的 个 数 大 于 1。 

7.5 使 用 System V IPC 函 数 实现 sem_open、sem close、sem_unlink、sem_post 和 sem_wait。 

7.6 使 用 POSIX IPC 函 数 实现 shmget 、shmct1、shmat 和 shmadt 。 

7.7 并 没有 练习 要 求 用 System V IPC 函 数 实现 shm_open、shm_unlink、ftruncate、mmap 和 munmap。 
这 是 为 什么 呢 ? 你 可 以 提出 一 个 恰当 的 练习 吗 ? 你 能 完成 它 吗 ? 

7.8 设计 并 做 实验 : 比较 在 普通 文件 上 利用 read 和 write 来 进行 LO 与 借助 内 存 映射 文件 访问 的 效率 。 包 
括 顺 序 IO 和 随机 IO， 而 且 可 能 每 个 都 有 几 个 变 体 。 

7.9 设计 并 做 实验 来 比较 只 用 写 锁 (使 用 1ockf ) 的 效率 和 使 用 读 写 锁 结 合 (使 用 fcnt1) 的 效率 。 尝试 
创建 一 种 读 写 方式 来 显示 它们 在 效率 上 的 最 大 不 同 。 

7.10 扩展 在 练习 5.14 中 所 写 的 程序 ， 使 它 包 括 在 本 章 解释 的 附录 A 中 的 进程 属性 。 


Bs ”网 络 和 套 接 字 


第 6 章 和 第 7 章 讨 论 的 IPC 机 制 的 确 有 用 途 ， 但 许多 现代 的 程序 不 仅仅 要 在 同一 台 机 器 的 进 
程 之 间 传送 数据 ， 还 需要 在 不 同 的 机 器 之 间 传 送 数据 。“ 在 不 同 机 器 ”不 仅仅 指 在 跨越 一 个 房 
间或 同一 栋 楼 中 的 机 器 ， 而 是 指 世 界 上 的 任何 使 用 Internet 的 机 器 。 

这 种 在 不 同 机 器 之 间 运 行 的 基本 机 制 即 联 网 一 — 称 为 “ 套 接 字 ”。 共 有 8 个 基本 的 套 接 字 系 
统 调用 ， 其 中 5 个 都 是 套 接 字 所 独 有 的 : socket. bind, listen, accept. connect, 
read、write 和 close。 然 而 ， 因 为 套 接 字 (特别 是 底层 通信 协议 ) 会 变 得 很 复杂 ， 所 以 总 
共 包 含有 60 个 左右 的 系统 调用 ， 本 章 将 对 所 有 这 些 进行 讨论 。 

本 书 带 有 大 量 的 示例 ， 包 括 Web 浏 览 器 和 服务 器 ， 这 些 足 以 让 读者 开始 起 步 学 习 了 ， 但 
要 进一步 研究 UNIX 网 络 通信 ， 可 能 需要 更 高 级 的 资料 。 目 前 最 为 完整 的 书 是 [Ste2003]， 但 还 
需要 热 悉 系 统 文档 ， 特 别 是 在 所 使 用 的 协议 与 TCP/IP 协 议 相 比 有 很 大 差异 时 ， 就 更 需要 熟悉 
这 些 协议 的 细节 。 

本 章 是 这 样 展 开 的 : 首先 讲解 与 套 接 字 相 关 的 基本 系统 调用 ， 给 出 一 些 简单 的 客户 /服务 
器 例子 。 然 后 讲解 套 接 字 地 址 和 套 接 字 可 选项 。 还 要 介绍 一 个 隐藏 了 大 量 复 杂 细 节 的 简单 接 
口 ， 并 用 它 实 现 第 7 章 深入 讨论 的 简单 消息 接口 (SMI) 的 套 接 字 版 本 。 接 着 是 更 深入 的 内 容 : 
无 连接 套 接 字 、 带 外 数据 、 网 络 数据 库 函 数 以 及 其 他 各 种 各 样 的 函数 。 最 后 ， 将 讨论 一 些 关 
于 在 构建 能 同时 处 理 数 千 台 客户 端的 服务 器 时 所 遇 到 的 关键 问题 。 


8.1 套 接 字 基 础 
本 节 介绍 套 接 字 的 概念 ， 并 说 明基 本 的 套 接 字 系 统 调用 。 


8.1.1 套 接 字 的 工作 机 制 
套 接 字 是 非常 复杂 的 ， 所 以 让 我 们 从 已 经 熟悉 的 内 容 开 始 。 回 顾 7.2 节 的 讨论 可 知 ， 进 程 
可 以 采用 如 下 方式 打开 FIFO: 


fd = open("MyFifo", O_RDONLY); 


现在 考虑 这 个 系统 调用 内 部 实现 了 什么 功能 呢 ? 

1) 创建 一 个 LO 端点 并 为 其 分 配 文件 描述 符 。 

2) 将 文件 描述 符 绑 定 到 外 部 名 字 “MyFifo . 

3) 等 待 ， 直 到 出 现 写 进程 。 

4) 返回 文件 描述 符 ， 该 文件 描述 符 可 以 用 于 read 系 统 调用 。 

套 接 字 的 工作 流程 与 此 类 似 ， 不 同 之 处 在 于 每 一 步 都 分 解 为 一 个 独立 的 系统 调用 : 
socket 创 建 端点 并 分 配 文件 描述 符 。 

bind 将 该 套 接 字 与 外 部 名 字 关 联 起 来 ， 让 其 他 进程 可 以 引用 。 

1isten 将 该 套 接 字 标识 为 可 以 接收 来 自 其 他 套 接 字 的 连接 。 
accept 阻 塞 等 待 连接 。 

connect 连 接 到 在 accept 中 阻塞 的 套 接 字 。 

FIFO 在 客户 端 与 服务 器 端 是 对 称 的 ， 两 者 都 要 执行 完全 相同 的 系统 调用 open， 但 带 有 不 
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同 的 标志 (例如 0_RDONLY 与 0_WRONLY)。 有 连接 套 接 字 通 常 是 非 对 称 的 ， 因 为 客户 端 和 服 
务 器 使 用 不 同 序列 的 系统 调用 ， 如 图 8-1 所 示 。 
com 
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图 8-1 建立 有 连接 套 接 字 


服务 器 端 : 
+ 调用 socket 创 建 端点 和 文件 摘 述 符 (PRZ). 

* 调 用 bind 将 套 接 字 绑 定 到 名 字 上 (步骤 3 )。 

“调用 1isten 将 其 标识 为 接收 连接 (44). 

* 调 用 accept 阻 塞 直至 建立 一 条 连接 。 然 后 accept 使 用 新 的 文件 描述 符 创建 第 二 个 套 
接 字 (GMS). 

。 使 用 新 的 文件 描述 符 在 第 二 个 套 接 字 上 进行 读 和 写 (PRE). 

客户 端 : 

* 调 用 socket 创 建 端点 和 文件 描述 符 〈 步 骤 2)。 

* 使 用 服务 器 被 绑 定 的 名 字 作为 参数 调用 connect ， 阻 塞 直至 服务 器 接受 连接 (PRI, 
尽管 它 不 需要 与 服务 器 步骤 3 同步 )。 

， 使 用 套 接 字 的 文件 描述 符 进行 读 写 数 据 (RO) « 

在 正式 引入 套 接 字 系统 调用 之 前 ， 先 看 一 个 示例 程序 。 访 程序 创建 一 个 子 进程 作为 客户 
父 进 程 作为 服务 器 端 : 


#define SOCKETNAME "MySocket" 





int main(void) 
{ 
struct sockaddr_un sa; 


(void) un] ink (SOCKETNAME) ; 
strcpy(sa.sun_path, SOCKETNAME) ; 
sa.sun_family = AF_UNIX; 
if (fork() == 0) { /* child -- client */ 
int fd_skt; 
char buf[100); 


ec_negl( fd_skt = socket (AF_UNIX, SOCK_STREAM, 0) ) 


while (connect(fd_skt, (struct sockaddr *)&sa, sizeof(sa)) == -1) 
if (errno == ENOENT) { 
sleep(1); 


continue; 
} 
else 
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EC_FAIL 
ec_negi( write(fd_skt, "Hello!", 7) ) 
ec_negl( read(fd_skt, buf, sizeof(buf)) ) 
printf ("Client got \"$s\"\n", buf); 
ec_negl( close(fd_skt) ) 
exit (EXIT_SUCCESS) ; 

} 


else { /* parent -- server */ 
int fd_skt, fd_client; 
char buf[100]; 


ec_negl( fd_skt = socket (AF_UNIX, SOCK_STREAM, 0) ) 
ec_negl( bind(fd_skt, (struct sockaddr *)&sa, sizeof(sa)) ) 
ec_negl( listen(fd_skt, SOMAXCONN) ) 
ec_negl( fd_client = accept (fd_skt, NULL, 0) ) 
ec_negl( read(fd_client, buf, sizeof(buf)) ) 
printf("Server got \"%s\"\n", buf); 
ec_negl( write(fd.client, "Goodbye!", 9 ) ) 
ec_negl( close(fd_skt) ) 
ec_negl( close(fdclient) ) 
exit (EXIT_SUCCESS) ; 
} 

EC_CLEANUP_BGN 
exit (EXIT_FAILURE) ; 

EC_CLEANUP_END 

} 

我 们 首先 看 到 的 是 传递 给 bind 和 connect 的 名 字 不 是 简单 的 字符 串 ， 而 是 sockaddzr 的 
结构 类 型 。sockaddr 结 构 包 含 了 sun_path 成 员 中 的 字符 串 和 sun_family 成 员 中 的 地 址 
族 信息 。 套 接 字 地 址 在 其 中 是 一 个 较 大 的 主题 ， 后 面 会 详细 阑 述 ， 这 里 暂且 假定 AF_UNIX 的 
意思 是 “单机 内 部 的 本 地 通信 ”"， 这 正 是 这 个 示例 所 需要 的 。 

套 接 字 文件 名 没有 链接 。 因 为 对 AF_UNIX 来 说 ，bind 不 能 重用 已 经 存在 的 名 字 ， 所 以 需 
要 确保 从 新 名 字 开始 。 

服务 器 端 ( 父 进程 ) 遵循 图 8-1 中 的 6 个 步骤 序列 。( 暂 时 忽略 传递 给 1isten 和 accept 的 
Bh.) 客户 端 ( 子 进程 ) 也 遵循 图 8-1 的 步骤 ， 但 有 一 点 儿 小 小 的 不 同 : 如 果 客 户 端 在 服务 
器 bind 之 前 进行 connect 操 作 ，connect 会 因为 缺少 套 接 字 文件 而 失败 。 这 种 情况 下 ， 可 


以 先 睡眠 然后 再 重 试 。 

当 服务 器 从 accept 返 回 时 ， 它 继续 读 写 从 accept 得 到 的 文件 描述 符 (不 是 原始 的 套 接 
字 文件 描述 符 )。 当 客户 端 从 connect 得 到 返回 值 时 ， 它 会 读 写 它 的 套 接 字 文件 描述 符 〈 它 
唯一 拥有 的 )。 记 住 ，accept 和 connect 是 两 个 阻塞 调用 一 一 其 他 函数 仅 完成 自己 的 工作 并 
立即 返回 。 

只 要 服务 器 和 客户 端 需 要 ， 连 接 就 一 直 保持 着 ， 其 功能 就 像 一 根 双向 的 管道 ( 见 6.6 节 )。 

套 接 字 文 件 实际 上 是 那样 的 文件 类 型 ， 如 1s 命 令 所 示 : 


$ 1s -1 MySocket 
srwxr-xr-x 1 marc sysadmin 0 Apr 4 10:03 MySocket 


下 面 是 运行 该 示例 程序 的 输出 : 


Server got "Hello!" 
Client got "Goodbye!" 


所 以 ， 套 接 字 实际 上 非常 简单 ， 但 需要 注意 以 下 细节 : 
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“同一 服务 器 同时 处 理 多 台 客户 端 。 

"网 络 通信 的 地 址 族 ， 包 括 有 意义 的 AF_INET 族 。 

* 非 流 型 通信 ， 包 括 数 据 报 而 不 包括 数据 流 。 

“无 连接 通信 ， 在 这 种 通信 中 ， 进 程 向 已 经 命名 的 接收 者 发 送 数据 报 ， 而 不 是 像 本 例 那样 
建立 一 条 半 永 久 性 连接 。 

* 有 许多 用 于 调整 套 接 字 性 能 的 选项 ， 特 别 是 针对 AF_INET 和 AF_INET6 的 那些 选项 。 

“在 机 器 间 以 不 同 的 存储 值 方式 来 传送 二 进 制 数据 。 

， 访 问 名 字数 据 库 (比如 www.basepath.com/aup )。 

实际 上 的 细节 远 不 止 这 些 。 在 建立 网 络 通信 程序 中 ， 它 们 是 必须 了 解 的 内 容 ， 也 是 本 章 


后 续 的 内 容 。 


8.1.2 有 连接 套 接 字 的 基本 系统 调用 

套 接 字 有 两 种 : 一 种 是 有 连接 套 接 字 ， 需 要 用 accept 和 connect 建 立 一 条 通道 ; 另 一 
种 是 无 连接 套 接 字 ， 这 种 套 接 字 中 数据 报 发 送 给 已 命名 接收 者 (不 需要 使 用 Listen 和 
accept， 使 用 connect 采 用 的 也 是 不 同 的 方式 )。 这 一 节 所 讨论 的 只 限于 有 连接 套 接 字 ， 无 


连接 套 接 字 推 后 到 8.6 节 讨论 。 
本 节 只 探讨 前 面 非 正式 提 到 的 5 个 基本 的 专用 套 接 字 系 统 调用 。 首 先 看 看 socket: 


socket 一 一 建立 通信 终点 


#include <sys/socket.h> 


int socket ( 
int domain, /* domain (AF_UNIX, AF_INET, etc.) */ 
int type, /* SOCK_STREAM, SOCK_DGRAM, etc. */ 
int protocol /* specific to type; usually zero */ 


Ve 
/* Returns file descriptor or -1 on error (sets errno) */ 





socket 函 数 所 返回 的 文件 描述 符 可 以 有 两 种 不 同 的 用 途 : 

“在 服务 器 端 ， 作 为 端点 以 accept 来 接收 连接 (实际 的 IO 是 在 文件 描述 符 上 完成 的 ， 而 

文件 描述 符 是 从 accept 函 数 返回 的 )。 

“* 在 客户 端 ， 只 要 connect 成 功 地 连接 上 套 接 字 ， 用 于 直接 的 IO。 

domain9 和 type 都 用 于 套 接 字 地 址 。 在 调用 bind 和 connect 时 会 用 到 套 接 字 地 址 。 如 
果 type 提 供 了 选择 ， 那 么 protocol 参 数 也 会 进行 相应 的 选择 。 但 在 通常 情况 下 采用 默认 值 
就 可 以 了 ， 所 以 通常 为 0。 

下 一 步 ， 服 务 器 必须 使 用 bind 来 命名 套 接 字 : 


bind 一 一 把 名 字 与 套 接 字 绑 定 


#include <sys/socket.h> 


int bind( 


int socket_fd, /* socket file descriptor */ 
const struct sockaddr *sa, /* socket address */ 
socklen_t sa_len /* address length */ 


); 
/* Returns 0 on success or -1 on error (sets errno) */ 





O 以 AF_ 开 始 的 宏 有 时 写作 PF_， 但 技 标准 应 该 采用 AF_， 本 书 也 推荐 采用 AP_。 
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套 接 字 地 址 需要 用 一 整 节 (8.245) 讲解 。 我 们 已 经 见 过 了 关于 AF_UNIX 的 示例 ， 它 仅仅 
是 一 个 单机 内 部 的 通信 ， 类 似 于 第 7 章 所 讲 的 IPC 机 制 。 后 面 将 要 说 明 如 何 设置 其 他 域 (包括 
AF_INET 在 内 ) 的 地 址 。 

记 住 ， 在 多 数 系统 中 ， 对 于 AF_UNIX，bind 会 创建 一 个 新 的 套 接 字 文件 ; 它 不 重用 已 经 
存在 的 文件 。 

服务 器 也 必须 调用 1isten 来 建立 用 于 接收 连接 的 套 接 字 : 






listen 一 一 标识 接收 套 接 字 并 设置 队列 限制 


#include <sys/socket.h> 










int listen( 
int socket_fd, /* socket file descriptor */ 
int backlog /* maximum connection queue length */ 






) 
/* Returns 0 on success or -1 on error (sets errno) */ 





上 一 节 的 示例 中 没有 说 明 这 些 ， 服 务 器 可 以 接受 来 自 多 个 客户 机 的 连接 。 另 外 ， 因 为 它 
只 能 以 一 定 的 速率 发 出 accept ， 所 以 连接 请 求 就 必须 在 队列 中 等 待 。1isten 的 第 二 个 参数 
就 是 用 来 限制 队列 的 长 度 的 。 通 常 ， 如 果 队 列 已 满 ， 客 户 端 的 连接 (connect) 请 求 会 返 
回 -1， 并 将 errno 设 置 为 ECONNREFUSED。 前 面 的 示例 中 使 用 的 是 常量 SOMAXCONN， 这 个 
常量 是 系统 定义 的 最 大 值 。 

接着 ， 服 务 器 端 接收 连接 请 求 : 


accept 一 一 在 套 接 字 上 接收 新 的 连接 并 产生 新 的 套 接 字 
#include <sys/socket .h> 


int accept ( 5 
int socket_fd, /* socket file descriptor */ 


struct sockaddr *sa, /* socket address or NULL */ 
socklen_t *sa_len /* address length */ 


i 
/* Returns file descriptor or -1 on error (sets errno) */ 





一 般 情况 下 ，accept 会 阻塞 直至 连接 请 求 到 达 (来 自 其 他 进程 的 connect 调 用 )， 然 后 
在 那 条 连接 上 创建 一 个 用 于 IO 的 新 套 接 字 ， 并 返回 新 的 文件 描述 符 。 该 文件 描述 符 可 以 用 于 
常规 的 read 和 write 系统 调用 ， 尽 管 对 于 更 多 的 IO 控制 可 以 使 用 专用 套 接 字 调用 一 一 send、 
sendto、sendmsg、recv、recvfrom、recvmsg， 这 些 将 会 在 8.6.2 节 、8.6.3 节 和 8.9.1 
节 中 讲解 。 

如 果 为 套 接 字 文 件 描述 符 设置 了 0_NONBLOCK 标 志 (用 fcnt1; 见 3.8.3 节 )， 并 且 队 列 中 
没有 请 求 ， 那 么 accept 就 不 等 待 连接 ， 而 是 立即 返回 -1， 并 把 errno 设 置 成 EAGAIN 或 
EWOULDBLOCK. 

套 接 字 文件 描述 符 可 以 用 于 select 或 po11， 通 常 也 是 这 样 使 用 的 ，8.1.3 节 将 会 讲 到 这 
一 点 。 典 型 的 情况 是 ， 服 务 器 使 用 文件 描述 符 和 由 accept 返 回 的 每 个 文件 描述 符 为 select 
(或 者 对 应 的 是 pol1) 设置 fd_set。 如 果 select 或 pol1 表 明 套 接 字 文件 描述 符 已 经 准备 
好 了 ， 这 就 说 明 服务 器 应 该 accept (不 会 阻塞 )。 如 果 这 些 返回 的 文件 描述 符 中 的 其 中 一 个 
已 经 准备 好 了 ， 这 就 意味 着 数据 已 经 从 客户 端 到 达 并 可 以 读 取 了 。 

如 果 sa 参 数 不 是 NULL ， 那 么 该 参数 就 是 用 来 返回 所 连接 的 套 接 字 地 址 的 。 在 输入 时 必须 
设置 sa_len 参 数 为 sa 所 指向 的 存储 空间 的 大 小 ， 返 回 时 这 个 参数 设置 为 实际 的 地 址 空间 大 小 。 
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服务 器 的 内 容 就 讲 到 这 里 。 客 户 端 ， 在 创建 其 套 接 字 后 ， 只 调用 connect ， 所 使 用 的 套 
接 字 地 址 与 服务 器 中 bind 所 使 用 的 套 接 字 地 址 相同 : 


connect 一 一 连接 套 接 字 
#include <sys/socket.h> 


int connect ( . y 
int socket_fd, /* socket file descriptor */ 


const struct sockaddr *sa, /* socket address */ 
socklen_t sa_len /* address length */ 


I; 
/* Returns 0 on success or -1 on error (sets errno) */ 





像 accept 一 样 ，connect 通 常 阻塞 直至 接受 连接 请 求 ， 不 同 的 是 connect 不 返回 文件 
描述 符 一 客户 端 在 套 接 字 文件 描述 符 上 进行 1/O。 

如 果 设 置 了 0_NONBLOCK 标 志 ， 那 么 connect 不 会 阻塞 连接 等 待 ， 但 会 返回 -1， 同 时 设 
置 errno 为 EINPROGRESS。 不 抛弃 连接 请 求 ， 而 是 保留 在 队列 中 等 待 最 终 处 理 。 在 此 期 间 
如 果 继 续 调用 connect 也 会 返回 -1， 但 此 时 将 errno 设 置 成 了 EALREADY。 当 连接 成 功 时 ， 
套 接 字 文件 描述 符 就 可 以 使 用 了 。 如 果 需 要 ， 可 以 使 用 select 或 pol1 等 待 它 的 可 写 ( 非 读 ) 
状态 。 一 个 典型 的 用 途 就 是 应 用 程序 需要 初始 化 工作 。 它 发 布 一 个 非 阻塞 的 connect 进 行 初 
始 化 ， 然 后 发 布 select 或 pol1 进 行 阻塞 。 


8.1.3 处 理 多 个 客户 端 
现在 扩展 8.1.1 节 中 的 示例 ， 以 使 服务 器 能 够 处 理 多 个 客户 端 下 面 的 示例 是 对 服务 器 端 
代码 的 修改 : 
static bool run_server(struct sockaddr_un *sap) 
{ 
int fd_skt, fd_client, fd hwm = 0, fd; 
char buf [100]; 


fd_set set, read_set; 
ssize_t nread; 


ec_negl( fd_skt = socket (AF_UNIX, SOCK_STREAM, 0) ) 
ec_negl( bind(fd_skt, (struct sockaddr *)sap, sizeof(*sap)) ) 
ec_negl( listen(fd_skt, SOMAXCONN) ) 
if (fd_skt > fd_hwm) 
fd_hwm = fd_skt; 
FD_ZERO(&set) ; 
FD_SET(fd_skt, &set); 
while (true) { 
read_set = set; 
ec_negl( select (fd_hwm + 1, &read_set, NULL, NULL, NULL) ) 
for (fd = 0; fà <= fa_hwm; far+) 
if (FD_ISSET(fd, &read_set)) ( 
if (fd == fa_skt) { 
ec_negl( fa_client = accept (fd_skt, NULL, 0) ) 
FD_SET(fd_client, &set); 
if (fd_client > fd_hwm) 
fd_hwm = fd_client; 
t 
else { 
ec_negl( nread = read(fd, buf, sizeof (buf)) ) 
if (nread == 0) { 
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FD_CLR(fd, &set); 
if (fd == fā hwm) 
fa_hwm--; 
ec_negl( close(fd) ) 
J 
else { 
printf ("Server got \"ts\"\n", buf); 
ec_negl( write(fd, “Goodbye!", 9) ) 


d 
$ 
} 
ec_negi( close(fd_skt) ) 
return true; 


EC_CLEANUP_BGN 
return false; 
EC_CLEANUP_END 
) 
新 加 的 代码 多 数 是 为 创建 和 使 用 select 而 准备 的 。 这 在 4.2.3 节 已 经 讨论 过 ， 这 里 简要 
重 述 : 
select 一 一 等 待 JO 准 备 好 
#include <sys/select.h> 
int select ( 
int nfds, /* highest fd + 1 */ 
fd_set *readset, /* read set or NULL */ 
fd_set *writeset, /* write set or NULL */ 


fd_set *errorset, /* error set or NULL */ 
struct timeval *timeout /* time-out (microseconds) or NULL */ 


) 
/* Returns number of bits set or -1 on error (sets errno) */ 





在 run_server 函 数 中 有 两 个 fd_set: 一 个 包含 了 所 有 相关 的 文件 描述 符 : 套 接 字 文 
件 描述 符 和 每 个 客户 端 accept 返 回 的 文件 描述 符 。 我 们 需要 select 集 合 中 文件 描述 符 的 数 
目 ， 以 便 使 变量 fd_hwm (“高 水 位 标志 ”) 保持 到 从 accept 得 到 新 的 文件 描述 符 的 时 间 。 当 
我 们 关闭 最 大 的 文件 描述 符 时 ， 从 set 中 删除 它 并 将 高 水 位 标志 碱 1。 从 set 中 删除 它 是 极其 
重要 的 , 否则 ，select 会 一 直 报告 它 处 于 准备 好 的 状态 , 这 意味 着 不 是 数据 准备 好 可 以 读 了 ， 
而 是 说 读 不 会 阻塞 。 

第 二 个 fd_set 是 read_set， 是 每 次 调用 select 时 从 set 中 复制 的 ， 然 后 用 select 
去 修改 来 表明 哪个 文件 描述 符 处 于 准备 好 状态 。9 

然后 此 函数 就 一 直 循环 下 去 ， 直 至 给 出 一 个 销毁 信号 。 每 当 它 从 select 得 到 返回 值 时 ， 
它 都 会 遍历 整个 返回 的 集合 (修改 后 的 read_set 变 量 ) 以 寻找 准备 好 的 文件 描述 符 。 如 果 
fd_skt 准 备 好 了 ， 它 就 调用 accept; 如 果 其 他 的 也 准备 好 了 ， 这 说 明 客户 端 已 经 发 送 了 一 
些 数据 。 可 以 读 取 、 显 示 并 返回 一 个 短 的 消息 。 

客户 端的 代码 同 先前 的 示例 类 似 ， 不 同 之 处 在 于 返回 给 服务 器 的 消息 中 包含 有 进程 ID: 


static bool run_client(struct sockaddr_un *sap) 
{ 


O 一 个 常见 的 错误 是 只 让 一 个 得 到 的 fd_set 传 递 给 select. 因为 它 为 所 有 未 准备 好 的 文件 描述 符 清除 了 位 ， 
所 以 它们 决 不 会 等 待 。 
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if (fork() == 0) { 
int fd_skt; 


char buf(100]; 


ec_negl( fd_skt = socket (AF_UNIX, 
while (connect (fd_skt, 
if (errno == ENOENT) { 
sleep(1 
continu 





EC_FAIL 

snprintf (buf, sizeof (buf), 
(long) getpid()); 

ec_negl( write(fd_skt, buf, 


(struct sockaddr *)sap, 


SOCK_STREAM, 0) ) 


sizeof (*sap)) == -1) 


“Hello from %1d!", 


strlen(buf) + 1 ) ) 


ec_negi( read(fd_skt, buf, sizeof(buf)) ) 
printf ("Client got \"ts\"\n", buf); 


ec_negl( close(fd_skt) ) 
exit (EXIT_SUCCESS) ; 
2 


return true; 


EC_CLEANUP_BGN 
/* only child gets here */ 
exit (EXIT_FAILURE) ; 
EC_CLEANUP_END 
$ 


最 后 ， 有 个 小 的 main 函 数 建立 套 接 字 地 址 ， 
务 器 进程 : 


#define SOCKETNAME "MySocket" 


int main(void) 

{ 
struct sockaddr_un sa; 
int nclient; 


(void) unl ink (SOCKETNAME) ; 
strepy(sa.sun_path, SOCKETNAME) ; 
sa.sun_family = AF_UNIX; 


生成 4 个 客户 端子 进程 ， 同 时 父 进程 作为 服 


for (nclient = 1; nclient <= 4; nclient++) 


ec_false( run_client(&sa) ) 
ec_false( run_server(&sa) ) 
exit (EXIT_SUCCESS) ; 


EC_CLEANUP_BGN 
exit (EXIT_FAILURE) ; 

EC_CLEANUP_END 

} 


其 输出 如 下 : 


"Hello from 31786!" 
"Goodbye 
"Hello from 
"Goodbye!" 

“Hello from 
"Goodbye!" 

"Hello from 


Server 
Client 
Server 
Client 
Server 
Client 
Server 


got 
got 
got 
got 
got 
got 
got 





31785!" 


31784!" 


31787!" 
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Client got "Goodbye!" 

到 此 为 止 ， 我 们 已 经 有 了 一 定 的 能 力 ， 完 全 可 以 实现 一 个 相当 复杂 的 客户 /服务 器 系统 
我 们 还 需要 进一步 知道 如 何 设置 套 接 字 地 址 (AF_UNIX 不 是 那么 让 人 感 兴趣 ) 和 如 何 设置 套 
接 字 选 项 。 在 讲解 完 字 节 顺 序 之 后 ， 就 会 介绍 这 些 内 容 。 


8.1.4 字 节 顺序 

在 同一 网 络 中 的 机 器 之 间 传 送 诸如 “Hello” 和 “Goodbye” 之 类 的 字符 串 绝 对 不 会 有 什 
么 问题 ， 因 为 所 有 通信 都 会 保持 字 节 顺序 。 但 是 ， 如 果 传 送 二 进 制 数 就 会 出 现 问题 ， 因 为 数 
字 中 的 字 节 顺序 的 安排 在 不 同 机 器 之 间 是 不 同 的 。 

为 说 明 这 个 问题 ， 请 看 图 8-2， 该 图 显示 了 在 地 址 为 106204 的 内 存 空间 中 存储 两 个 字 节 的 
的 整数 所 采用 的 两 种 不 同 的 方式 ， 其 十 六 进 制 值 为 0xD04C。 





图 8-2 小 头 与 大 头 
ERA “hk” (little-endian) 的 机 器 中 ， 数 字 的 地 址 是 其 最 低 字 节 的 地 址 ; 在 “大 头 ” 
(big-endian) 机 器 中 ， 数 字 的 地 址 是 其 最 高 字 节 9 的 地 址 。 它 们 都 是 都 是 表示 地 址 数字 的 有 效 
方法 。 问 题 在 于 ， 如 果 一 台 机 器 向 另 一 台 机 器 发 送 二 进 制 数字 ， 且 两 台 机 器 采用 的 字 节 顺序 
不 同 ， 那 么 数字 就 会 出 现 混乱 。 换 句 话说 ， 如 果 小 头 机 器 以 字 节 (发 送 数据 的 唯一 方式 ) 发 
送 数字 ， 那 么 这 些 字 节 发 送 的 顺序 是 4C 紧 跟 在 D0 之 后 ; 如果 接 收 机 器 是 大 头 的 ， 那 么 它 会 将 
这 个 数字 解释 为 4CD0， 因 为 它 将 第 一 个 接收 到 的 字 节 作为 高 位 字 节 。 
解决 方案 是 采用 达成 一 致 的 网 络 字 节 顺序 来 发 送 二 进 制 数字 。 这 样 ， 所 有 的 发 送 方 必须 
将 本 机 (本地) 字 节 数据 转换 为 网 络 数据 ， 所 有 的 接收 方 必须 将 网 络 数据 转换 为 本 机 字 节 顺 
序 。 但 是 需要 这 样 做 的 前 提 是 数据 不 是 采用 标准 的 方式 组 织 的 。 例 如 ， 如 果 有 一 张 采用 JPEG 
编码 的 照片 ， 就 可 以 直接 发 送 它 一 一 无 需 将 JPEG 转 换 为 网 络 字 节 顺序 
对 于 大 多 数 情况 ， 无 需 知道 本 机 字 节 顺序 和 网 络 字 节 顺序 ， 因 为 已 经 有 一 组 标准 的 转换 
函数 专门 用 来 进行 16 位 和 32 位 整数 的 转换 工作 : 


htons 一 一 把 16 位 值 从 主机 字 节 序 转换 成 网 络 字 节 序 


#include <arpa/inet.h> 


uint16_t htons( 
uint1i6_t hostnum /* 16-bit number in host byte order */ 





ve 
/* Returns number in network byte order (no error return) */ 


O 这 个 术语 是 自 解释 的 ， 但 术语 “大 头 ”实际 上 源 自 Jonathan Swift 的 《 格 列 佛 游记 》， 其 中 描述 了 一 个 关于 
鸡蛋 是 在 大 头 还 是 小 头 打破 的 争论 . 实际 上 ,“ 一 万 一 千 个 [大 头 ] 数 次 都 是 完全 破碎 , 而 小 头 只 是 打破 鸡蛋 。” 
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htonl 一 一 把 32 位 值 从 主机 字 节 序 转换 成 网 络 字 节 序 
#include <arpa/inet.h> 


uint32_t htonl( 
uint32_t hostnum /* 32-bit number in host byte order */ 


Me 
/* Returns number in network byte order (no error return) */ 


ntohs 一 一 把 16 位 值 从 网 络 字 节 序 转换 成 主机 字 节 序 
#include <arpa/inet.h> 


uint16_t ntohs( 


uint16_t netnum /* 16-bit number in network byte order */ 


ve 
/* Returns number in host byte order (no error return) */ 


mtoh] 一 一 把 32 位 值 从 网 络 字 节 序 转换 成 主机 字 节 序 


#include <arpa/inet.h> 


uint32_t ntohl ( 


uint32_t netnum /* 32-bit number in network byte order */ 


) 
/* Returns number in host byte order (no error return) */ 





不 幸 的 是 ，16 位 的 函数 后 面 都 带 有 表示 short 的 后 级 “s”"， 尽 管 short 可 能 不 止 16 位 ; 
同样 的 情况 是 ，32 位 函数 后 面 都 带 有 表示 long 的 后 组 “1”"。 而 实际 上 ， 这 些 函 数 并 不 是 进行 
short 类 型 和 long 类 型 的 运算 ; 它们 是 uint16_t (16 位 无 符号 整数 ) 和 uint32_t (32 位 


无 符号 整数 ) 的 运算 。 
为 了 说 明 这 两 个 函数 是 如 何 使 用 的 ， 下 面 给 出 一 个 示例 程序 。 该 程序 将 0xD04C 转 换 为 网 


络 字 节 顺序 ， 并 将 这 些 字 节 显示 出 来 ， 然 后 重新 转换 回去 : 


int main(void) 


$ 
uint16_t nhost = 0xD04C, nnetwork; 


unsigned char *p; 


p = (unsigned char *)&nhost; 
printf ("tx %x\n", *p, *(p + 1)); 
nnetwork = htons(nhost) ; 
p = (unsigned char *) &nnetwork; 
printf("%x @x\n", *p, *(p + 1)); 
exit (EXIT_SUCCESS) ; 

} 


输出 表明 ， 在 Intel Pentium CPU 上 运行 时 采用 的 字 节 顺序 与 网 络 字 节 顺序 是 不 同 的 : 

4c dO 

a0 4c 

我 们 由 此 可 以 进一步 推断 出 ，Pentium 是 小 头 的 ， 而 网 络 字 节 顺 序 是 大 头 的 。® 

总 的 来 讲 ， 当 所 使 用 的 协议 需要 发 送 二 进 制 数 时 ， 就 需要 使 用 标准 的 转换 函数 ， 下 一 节 
我 们 将 讲 到 这 部 分 内 容 。 对 于 我 们 自身 来 说 ， 设 计 程 序 时 应 尽量 发 送 字符 ， 避 免 发 送 二 进 制 


O 之 所 以 是 大 头 的 ， 是 因为 在 多 年 前 的 BSD 系 统 中 ， 当 时 运行 在 大 头 的 VAX 11/780 型 计算 机 上 ， 而 套 接 字 系 
统 调用 是 从 BSD 起 源 的。 因此 网 络 字 节 顺序 从 根本 上 ， 是 “ 谁 老 大 谁 说 了 算 ”。 
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数据 ， 除 非 要 发 送 的 是 标准 格式 (JPEG、MP3 等 等 ) 的 对 象 。 实 际 上 HTTP ( Web 协议 ) 就 是 
这 样 处 理 的 ( 见 8.4.2 节 )。 


8.2 套 接 字 地 址 


本 节 讲 述 的 内 容 都 是 在 调用 bind 和 connect 时 如 何 使 用 套 接 字 地 址 (struct 
sockaddr) 的 问题 。 前 面 已 经 讲 过 AF_UNIX 域 是 如 何 处 理 的 ， 这 种 情况 下 地 址 通常 只 是 某 
个 路 径 名 字 : 

struct sockaddr_un sa; 


strcpy(sa.sun_path, SOCKETNAME) ; 
sa.sun_family = AF_UNIX; 


但 这 只 是 很 简单 的 情况 。 其 他 的 域 要 复杂 一 些 。 


8.2.1 套 接 字 地 址 结构 


每 种 地 址 族 都 有 其 自己 的 结构 类 型 和 头 文件 。 例 如 ，sockaddr_un 是 针对 AF_UNIX 的 
结构 类 型 ，sockaddr_in 是 针对 AF_INET 的 结构 类 型 ，sockaddr_x25 是 针对 AF_X25 的 
结构 类 型 ， 等 等 ， 尽 管 在 [SUS2002] 中 仅 标准 化 了 前 两 个 域 。 一 种 方法 (这 种 方法 已 经 用 在 
了 AF_UNIX 上 ) 就 是 声明 一 个 所 需要 的 专用 的 结构 类 型 变量 ， 对 该 变量 的 成 员 赋值 ， 然 后 在 
调用 bind 或 connect 时 将 该 变量 的 地 址 强制 转换 为 指向 struct sockaddr (通用 类 型 ) 
的 指针 。 

简 而 言 之 ， 结 构 sockaddr 只 是 定义 了 一 种 抽象 类 型 ; 不 能 使 用 它 来 声明 要 使 用 的 结构 ， 
因为 它 可 能 没有 足够 的 空间 。 相 反 ，sockaddr_storage 是 一 个 标准 的 结构 类 型 ， 该 结构 
类 型 有 足够 的 空间 ， 但 它 的 成 员 不 是 为 特定 的 域 专门 定制 的 。 

这 些 内 容 好 像 让 人 感到 迷惑 不 解 ， 但 实际 上 没有 必要 这 样 担 心 : 

。 如 果 知 道 所 使 用 的 到 底 是 什么 域 ， 那 么 可 以 直接 声明 对 应 类 型 (比如 sockaddr_un) 

的 结构 变量 ,或 者 为 这 种 结构 动态 分 配 空间 (比如 使 用 malloc )。 

。 如 果 任何 的 域 结构 类 型 都 需要 足够 的 空间 ， 就 使 用 sockaddr_storage 类 型 ,但 在 使 

用 它 之 前 需要 将 指针 强制 转换 为 相应 的 类 型 。 

。 在 调用 bind 和 connect 时 强制 转换 为 struct sockaddr 一 一 根据 它们 的 原型 ， 别 无 

它 选 。 

下 面 的 示例 同时 使 用 了 上 面 的 后 两 条 规则 : 


struct sockaddr_storage sas; 
struct sockaddr_un *sa = (struct sockaddr_un *)&sas; 
sa->sun_family = AF_UNIX; 


ec_negt ( bind(fd, (struct sockaddr *)sa, sizeof(*sa)) ) 

不 用 过 于 担心 最 后 一 条 规则 。 如 果 出 错 ， 编 译 器 会 显示 。 也 不 用 太 担心 直接 使 用 
sockaddr_storage， 它 没有 任何 你 所 需要 的 成 员 。 但 是 ， 由 于 使 用 了 强制 类 型 转换 ， 所 
以 在 编译 时 根本 就 不 检测 是 否 使 用 了 正确 的 域 结 构 类 型 (所 使 用 的 域 专 有 的 结构 类 型 )。 所 以 
就 必须 保证 第 一 次 就 是 正确 的 。 
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8.2.2 AF_UNIX 套 接 字 地 址 





struct sockaddr_un 一 一 AF_UNIX 套 接 字 地 址 的 结构 






#include <sys/un.h> 






struct sockaddr_un { 
sa_family_t sun_family; /* AF_UNIX */ 
char sun_path( 41; /* socket pathname */ 






Ve 






对 照 表 中 的 X 分 配 的 路 径 名 所 需要 的 实际 空间 在 各 个 系统 之 间 有 所 不 同 。 不 要 假定 它 超过 
90 个 字 节 左右 的 空间 。 前 面 已 经 解释 了 如 何 使 用 该 结构 。 


8.2.3 ”AF_INET 套 接 字 地 址 
如 前 面 所 提 及 的 ，AF_INET 域 用 于 在 因特网 上 通过 套 接 字 进 行 通信 。 下 面 是 
sockaddr_in 结 构 : 


struct sockaddr_in 一 一 AF_INET 套 接 字 地 址 的 结构 


#include <netinet/in.h> 


struct sockaddr_in { 
sa_family_t sin_family; /* AF_INET */ 
in_port_t sin_port; /* port number (uint16_t) */ 
struct in_addr sin_addr; /* IPv4 address */ 


ve 


struct in_addr { 


in_addr_t s_addr; /* IPv4 address (uint32_t) */ 
ye 





IPv49 地 址 (通常 简称 为 “IP 地 址 " ) 是 分 配给 机 器 的 网 络 接口 的 一 个 32 位 二 进 制 数 。 这 
些 数字 不 采用 通常 的 方式 (比如 1, 182, 625, 240) 引用 ， 而 是 使 用 点 分 法 。 在 点 分 法 中 ， 每 个 
字 节 表示 为 一 个 单独 的 十 进 制 数字 ， 如 216.109.125.70。 即 使 如 此 ， 用 户 有 可 能 仍然 觉得 不 够 
方便 ， 所 以 就 有 了 采用 描述 性 名 字 的 命名 系统 ， 这 样 我 们 可 以 不 需要 使 用 216.109.125.70 (HL 
8.2.5 节 )， 而 是 使 用 www.yahoo.com。 不 过 这 里 暂时 还 是 采用 点 分 表示 法 。 

每 个 IP 可 以 与 许多 不 同 的 服务 相关 联 ， 每 个 服务 都 被 分 配 了 一 个 16 位 的 端口 号 。 为 方便 
起 见 ， 在 这 些 端口 号 中 ， 其 中 不 少 端口 号 已 经 分 配给 了 常见 的 服务 ， 例 如 ，HTTP (Web) 在 
80 端 口 提供 服务 ，FTP 在 21 端 口 提供 服务 ，Telnet 在 23 端 口 提供 服务 ， 等 等 。 要 查看 机 器 的 端 
口 分 配 情况 ， 可 以 查看 /etc/services 文 件 。 例 如 ， 下 面 是 从 我 的 FreeBSD 系 统 上 的 这 个 文件 
(总 共 超 过 2000 行 ) 中 摘 取 的 一 部 分 : 


ftp 21/tcp  #File Transfer [Control] 
ftp 21/udp ~ #File Transfer [Control] 
ssh 22/tep  #Secure Shell Login 

ssh 22/udp #Secure Shell Login 
telnet 23/tep 


telnet 23/udp 


© ”就 是 网 际 协议 版 本 4 (Version 4 of the Internet Protocol). 
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finger 79/tep 
finger 79/udp 
http 80/tcp www www-http #World Wide Web HTTP 
http 80/udp www www-http #World Wide Web HTTP 


端口 和 IP 地 址 的 类 型 in_port_t 和 in_addr_t 分 别 被 定义 为 uint16_t 和 uint32_t， 
而 且 必 须 采 用 网 络 字 节 顺序 ， 这 意味 着 可 以 使 用 htons 函 数 和 htonl 函 数 ， 例 如 : 

struct sockaddr_in sa; 

sa.sin_family = AF_INET; 


sa.sin_port = htons (80); 
sa.sin_addr.s_addr = htonl((216UL << 24) + (109UL << 16) + 


(125UL << 8) + 70UL); /* 216.109.125.70 */ 


但 是 对 于 点 分 表示 法 的 IP 地 址 ， 有 个 更 好 的 函数 能 按照 网 络 字 节 顺 序 直接 将 字符 串 转换 
为 32 位 IP 地 址 : 


inet_addr 一 一 把 ITPv4 点 串 地 址 转换 成 整数 


#include <arpa/inet.h> 


in_addr_t inet_addr ( 


const char *cp /* dotted IP address */ 


de 
/* Returns IP address or (in_addr_t)-1 on error (errno not defined) */ 





返回 值 -1 强制 转换 为 32 位 无 符号 整数 ， 和 255.255.255.255 转 换 后 的 结果 相同 。 但 这 不 会 


有 问题 ， 因 为 这 是 一 个 非法 的 IP 地 址 。 
反 向 转换 函数 有 时 候 用 起 来 也 挺 方便 : 


inet_ntoa 一 一 把 IPv4 整 数 地 址 转换 成 点 串 


#include <arpa/inet.h> 





char *inet_ntoa( 
struct in_addr in /* integer address */ 


ve 
/* Returns string (no error return) */ 





除了 inet_addr 和 inet_ntoa 之 外 ,还 可 以 使 用 更 通用 的 函数 inet_ntop 和 


inet_pton ( 见 8.9.5 节 )， 它 们 也 适用 于 IPv6 地 址 。 
回 到 刚才 的 示例 ， 这 次 使 用 inet_addr 代 替 hton1 进 行 IP 地 址 转换 ， 同 时 加 入 在 端口 80 


连接 HTTP 服 务 器 的 代码 ， 向 Web 页 面 发 送 请 求 并 显示 部 分 返回 信息 : 


#define REQUEST "GET / HTTP/1.0\r\n\r\n" 


int main(void) 

t 
struct sockaddr_in sa; 
int få_skt; 
“char buf[1000]; 
ssize_t nread; 


sa.sin_family = AF_INET; 
sa.sin_port = htons(80); 

sa.sin_addr.s_addr = inet_addr("216.109.125.70"); 

ec_negl( fd_skt = socket (AF_INET, SOCK_STREAM, 0) ) 

ec_negi( connect (fd_skt, (struct sockaddr *)&sa, sizeof(sa)) ) 
ec_negl( write(fd_skt, REQUEST, strlen(REQUEST) ) ) 
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ec_negl( nread = read(fd_skt, buf, sizeof(buf)) ) 
(void) write(STDOUT_FILENO, buf, nread); 

ec_negl( close(fd_skt) ) 

exit (EXIT_SUCCESS) ; 


EC_CLEANUP_BGN 

exit (EXIT_FAILURE) ; 
EC_CLEANUP_END 
} 


请 求 是 GET 命 令 ， 这 个 命令 在 定义 Web 通 信 ( 见 8.4.2 节 ) 的 HTTP 协 议 中 进行 了 详细 说 明 。 
下 面 是 部 分 返回 信息 ， 可 以 看 出 这 是 yahoo 主 页 的 HTML 源 码 。 它 以 状态 行 开始 ， 紧 跟着 的 是 
HTML 代 码 (所 示 的 示例 已 经 进行 了 很 大 的 简化 ): 

HTTP/1.1 200 OK 

Date: Sat, 19 Jul 2003 18:51:56 GMT 

P3P: policyref="http://p3p.yahoo.com/w3c/p3p.xml", CP="CAO DSP COR CUR ADM ... 

Cache-Control: private 


Connection: close 
Content-Type: text/html 


<html><head> 
<title>Yahoo!</title> 


8.2.4 AF_INET6 套 接 字 地 址 


如 果 IPv4 地 址 的 所 有 32 位 都 能 得 到 使 用 ， 那 么 总 共有 43 亿 个 网 络 地 址 ， 也 许 暂时 是 够 用 
了 。 但 是 因为 IPv4 地 址 的 分 配方 式 的 原因 ， 大 型 组 织 所 用 的 B 类 地 址 (从 192 开 始 到 223 结 束 ) 
只 有 53 400 万 个 ， 在 1992 年 左右 的 时 候 ， 人 们 就 预计 到 1995 年 年 中 就 会 用 完 这 些 地 址 。 另 外 
一 个 问题 是 ， 因 特 网 骨干 节点 上 的 路 由 表 太 大 ， 以 至 于 超出 了 当时 路 由 器 的 有 效 内 存 。 

提出 的 解决 方案 就 是 网 际 协议 版 本 6 (Version 6 of the Internet Protocol), ， 简 称 IPv6，IPv6 
对 IPv4 进 行 了 诸多 方面 的 改进 ， 其 中 一 项 就 是 将 IP 地 址 从 4 字 节 扩展 到 16 字 节 ， 可 容纳 2 个 
地 址 。 

IPv6 地 址 写法 的 首选 方案 是 每 组 2 字 节 共 分 8 组 ， 例 如 FEDC:BA98:7654: 3210:FEDC: 
BA98:7654:3210。 

设置 AF_INET6 套 接 字 地 址 需要 使 用 sockaddr_in6 结 构 ; 可 以 预料 ， 与 用 于 AF_INET 
的 结构 类 型 相 比 ， 成 员 更 多 : 


struct sockaddr_in6 一 一 AF_INET6 套 接 字 地 址 的 结构 


#include <netinet/in.h> 


struct sockaddr_in6é { 
sa_family_t sin6_family; /* AF_INET6 */ 
in_port_t sin6_port; /* port number (uint16_t) */ 
uint32_t sin6_flowinfo; /* traffic class and flow information */ 


struct in6_addr siné_addr; /* IPv4 address */ 
uint32_t sin6_scope_id; /* set of interfaces for a scope */ 


] 7 


struct in6_addr { 
uint8_t s6_addr[16); /* Ipv6 address */ 
}; 





日 ”这 个 数字 超过 了 宇宙 中 所 有 粒子 的 数目 ， 即 地 球 表面 每 平方 来 有 超过 6 550 万 亿 亿 个 地 址 ! 
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这 里 的 两 个 新 成 员 在 sockaddr_in 结 构 类 型 中 没有 对 应 项 ， 一 个 是 sin6_flowinfo， 
包含 一 个 “流标 签 ” 和 优先 权 值 ， 但 它 的 用 途 目前 还 没有 指定 ; 另 一 个 是 sin6_scope_id， 
它 指定 了 一 组 为 某 些 地 址 使 用 的 接口 ， 并 且 它 是 依赖 于 实现 的 。 如 果 设 置 自 己 的 
sockaddr_in6 结 构 ， 就 将 它们 设置 为 0。 事 实 上 ， 建 议 在 设置 所 关心 的 成 员 值 之 前 ， 先 将 
该 结构 整个 设置 为 0， 因 为 有 些 实现 除了 以 上 对 照 表 中 的 这 些 成 员 之 外 ， 还 有 其 他 成 员 。 

实际 应 用 中 ， 不 需要 直接 初始 化 sockaddr_in6 结 构 。 你 可 以 通过 getaddrinfo 得 到 
该 结构 ， 这 部 分 内 容 将 在 8.2.6 节 中 介绍 。 

inet_addr 和 inet_ntoa 结 构 不 能 用 于 IPv6 地 址 。 如 果 是 IPv6 地 址 ， 需 要 使 用 
inet_ntop 和 inet_pton， 这 两 个 结构 的 相关 介绍 在 8.9.5 节 中 。 


8.2.5 域名 系统 

在 使 用 Internet 浏 览 器 或 者 FTP 客 户 端 时 ， 我 们 很 少 使 用 数字 方式 表示 的 IP 地 址 一 一 实际 输 
入 通常 是 容易 记忆 的 名 字 ， 像 www.yahoo.com 或 www.basepath.com。 这 些 主机 名 字 是 通过 一 
个 称 为 DNS 的 世界 范围 的 分 布 式 数据 库 转换 为 IP 地 址 的 。UNIX 应 用 程序 访问 DNS 有 几 个 标准 
函数 ， 其 中 最 新 最 有 效 的 一 个 函数 是 getaddrinfo， 在 后 面 的 例子 中 会 用 到 这 个 函数 。 
8.8.1 节 简要 地 描述 了 几 个 较 早 的 函数 (如 gethostbyname )。 

在 像 http://www.basepath.com/aup (本 书 站 点 的 URL) 这 样 的 URL 中 ， 主 机 名 仅 是 中 间 部 


分 。 确 切 地 说 ， 总 的 语法 是 : © 

scheme://hostname/path 

其 中 ，scheme 指 定 了 访问 资源 的 方法 (比如 HTTP、FTP)，hostname 是 主机 名 字 ， 该 名 字 
记录 在 DNS 数 据 库 中 ，path 是 主机 文件 系统 内 的 一 条 路 径 。 

在 后 面 的 例子 中 ， 使 用 套 接 字 系统 调用 来 连接 主机 。 一 旦 有 了 连接 ， 就 根据 scheme 与 主 
机 交互 。 例 如 ， 在 8.2.3 节 的 示例 中 ，scheme 是 HTTP， 所 以 发 送 给 服务 器 的 请 求 是 : 

GET / HTTP/1.0 
这 个 请 求解 释 为 请 求 一 个 返回 的 Web 页 面 。 路 径 的 处 理 取决 于 scheme; 对 于 HTTP 而 言 ， 路 径 是 
GET 命 令 的 一 个 参数 (上 面 的 例子 是 单个 的 斜 线 )。 所 有 的 套 接 字 系统 都 不 关心 路 径 和 访问 方法 。 

除了 需要 了 解 那些 在 简单 示例 中 所 需 的 一 些 最 基本 的 知识 外 ， 在 本 书 中 没有 必要 深入 了 
解 HTTP、HTML、FTP 或 其 他 与 访问 方法 相关 的 内 容 。 了 解 不 同系 统 最 好 的 方法 是 ， 读 请 求 
注解 (Request for Comment, RFC) X#4[RFC]. 


8.2.6 getaddrinfo 

较 容易 的 方法 是 调用 创建 套 接 字 的 getaddrinfo， 而 不 是 从 零 开 始 构造 sockaddr_in 
或 sockaddr_in6 地 址 : 

[getaddrinfo 一 一 得 到 套 接 字 地 址 信息 


#include <sys/socket.h> 
#include <netdb.h> 


int getaddrinfo( 


const char *nodename, /* node name */ 

const char *servname, /* service name */ 

const struct addrinfo *hint, /* hint */ 

struct addrinfo **infop /* returned info as linked list */ 


de 
/* Returns 0 on success or error number on error (errno not set) */ 








O 这 是 一 种 简化 的 语法 ， 但 就 我 们 的 目的 而 言 已 足够 。URL 的 完整 语法 更 复杂 。 
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struct addrinfo 一 一 setaddrinfo 的 结构 


struct addrinfo ( 
int ai_flags; * input flags */ 
int ai_family; address family */ 
int ai_socktype; socket type */ 
int ai_protocol; protocol */ 
socklen_t ai_addrlen; length of socket address */ 
struct sockaddr ‘ai : socket address */ 
char *ai_canonnam /* canonical name of service location */ 
struct addrinfo *ai_next;  /* pointer to next structure in list */ 





典型 地 ， 调 用 getaddrinfo 时 ， 可 以 用 nodename 作 为 参数 来 设置 需要 的 主机 名 ， 用 
servname 作 为 参数 来 设置 端口 号 (以 字符 串 表示 )， 用 hint 作 为 参数 来 设置 需要 的 地 址 族 
和 套 接 字 类 型 。 通 过 infop 参 数 可 以 得 到 返回 值 ， 该 参数 是 addrinfo 结 构 类 型 的 链表 ， 共 
中 包含 了 套 接 字 信息 和 其 他 匹配 提示 的 信息 。 选 择 一 个 适当 的 套 接 字 地 址 ， 直 接 在 connect 
和 bind 调 用 中 使 用 ， 将 ai_addz 成 员 强制 转换 为 struct sockaddr *。 

“主机 名 ”可 能 是 一 个 在 DNS 服务 器 上 能 够 查找 的 名 字 ， 或 者 是 一 个 在 本 地 机 器 的 
/etc/hosts 文 件 中 定义 的 名 字 ， 或 者 是 用 点 分 标记 法 表示 的 IPv4 地 址 (字符 申 型 )， 也 可 能 是 一 
个 冒号 标记 法 表示 的 IPv6 地 址 (字符 串 型 )。 

一 个 关键 的 标志 是 AT_PASSIVE， 意 思 是 返回 的 套 接 字 地 址 是 为 了 accepPt 使 用 ;也 就 
是 说 ， 是 服务 器 进行 的 getaddrinfo 调 用 。 否 则 ， 如 果 清 除 标识 ， 就 说 明 该 调用 来 自 于 客 
户 端 ， 那 么 套 接 字 地 址 将 被 connect 使 用 。 如 果 是 无 连接 协议 (比如 SOCK_DGRAM)， 它 还 
可 以 被 sendto 或 sendmsg 使 用 。 

getaddrinfo 返 回 的 是 其 特有 类 型 的 错误 代码 ， 不 能 将 其 当 作 errno 值 ， 这 就 说 明 在 
出 错时 ， 不 能 使 用 标准 的 错误 处 理 函数 (比如 perror 或 strerror)。 相 反 ， 有 一 个 专门 用 
于 处 理由 getaddrinfo 和 另 一 个 函数 getnameinfo 返 回 的 错误 代码 的 函数 ( 见 8.8.1 节 )。 


gai_strerror 一 一 得 到 错误 代码 描述 


#include <netdb.h> 


const char *gai_strerror( 
int code /* error code */ 


ve 
/* Returns string (no error return) */ 





下 面 的 例子 中 使 用 了 错误 检查 宏 ec_ai ， 该 宏 知 道 如 何 处 理 从 getaddrinfo 和 
getnameinfo 返 回 的 值 ， 所 以 不 直接 调用 gai_strerror。 
下 面 是 一 个 使 用 getaddrinfo 的 简单 示例 : 


int main(void) 


{ 
struct addrinfo *infop = NULL, hint; 


memset (&hint, 0, sizeof (hint)); 
hint.ai_family = AF_INET; 
hint.ai_socktype = SOCK_STREAM; 
ec_ai( getaddrinfo("www.yahoo.com*, "80", &hint, &infop) ) 
for ( ; infop != NULL; infop = infop->ai_next) { 
struct sockaddr_in *sa = (struct sockaddr_in *)infop->ai_addr; 


print£("%s port: %d protocol: td\n*, inet_ntoa(sa->sin_addr), 
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ntohs(sa->sin_port), infop->ai_protocol); 
} 
exit (EXIT_SUCCESS) ; 


EC_CLEANUP_BGN 


exit (EXIT_FAILURE) ; 


EC_CLEANUP_END 


+218.70.48 port: 80 protocol: 
-218.70.49 port: 80 protocol: 
.218.71.88 port: 80 protocol: 
.218.71.86 port: 80 protocol: 
.218.70.50 port: 80 protocol: 
:218.71.91 port: 80 protocol: 
.218.71.80 port: 80 protocol: 
.218.71.84 port: 80 protocol: 
.218.71.90 port: 80 protocol: 
+218.71.93 port: 80 protocol: 
+218.71.94 port: 80 protocol: 
+218.71.92 port: 80 protocol: 
.218.71.89 port: 80 protocol: 


cocoooooocooocooooo 


所 以 看 起 来 ，www.yahoo.com 与 多 个 不 同 的 IP 地 址 相关 联 。 根 据 提示 可 以 知道 ， 它 们 都 
是 SOCK_STREAM 类 型 的 AF_INET 地 址 ， 所 以 都 适用 于 Web 页 面 访问 。 为 说 明 这 一 点 ， 我 们 
将 通过 getaddrinfo 来 对 套 接 字 地 址 检索 与 连接 进行 匹配 ， 并 给 出 8.2.3 节 的 示例 代码 ; 


Wdefine REQUEST "GET / HTTP/1.0\r\n\r\n" 


int main(void) 


{ 


struct addrinfo *infop = NULL, hint; 
int fd_skt; 

char buf [1000]; 

ssize_t nread; 


memset (&hint, 0, sizeof (hint)); 

hint.ai_family = AF_INET; 

hint.ai_socktype = SOCK_STREAM; 

ec_ai( getaddrinfo("www.yahoo.com", "80", &hint, &infop) ) 

ec_negl( fd_skt = socket (infop->ai_family, infop->ai_socktype, 
infop->ai_protocol) ) 

ec_negi( connect (fd_skt, (struct sockaddr *) infop->ai_addr, 
infop->ai_addrien) ) 

ec_negl( write(fa_skt, REQUEST, strlen(REQUEST) ) ) 

ec_negi( nread = read(fd_skt, buf, sizeof (buf)) ) 

(void) write(STDOUT_FILENO, buf, nread); 

ec_negl( close(fd_skt) ) 

exit (EXIT_SUCCESS) ; 


EC_CLEANUP_BGN 


exit (EXIT_FAILURE) ; 


EC_CLEANUP_END 


} 


运行 上 面 这 段 程序 会 得 到 和 8.2.3 节 中 一 样 的 结果 。 

如 果 所 使 用 的 系统 、DNS 服 务 器 和 所 访问 的 主机 支持 ， 那 么 使 用 getaddrinfo 在 80 端 品 
访问 的 地 址 就 不 止 是 SOCK_STREAM AF_INET 了 。 可 以 使 用 NULL 来 指定 nodename 或 
servname 参 数 (但 不 能 同时 使 用 NULL)， 也 可 以 (或 者 ) 使 用 提示 域 的 AF_UNSPEC 地 址 
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“ 族 ”来 找 出 可 利用 的 信息 ， 然 后 从 所 返回 的 多 个 地 址 中 找 出 想 使 用 的 地 址 。 例 如 ， 如 果 能 找 
到 的 话 ， 可 能 想 使 用 AF_INET6 (IPv6) 地 址 。 关 于 getaddrinfo 高 级 应 用 的 更 详细 的 信息 ， 
可 以 参见 [SUS2002]、 所 使 用 的 系统 文档 或 者 [Ste2003] 的 第 11 章 。 

在 本 节 结 束 之 前 ， 需 要 提醒 的 是 : 当 不 再 需要 从 getaddrinfo 返 回 的 链表 时 ， 应 当 用 
freeaddrinf 调 用 来 释放 它 : 


freeaddrinfo 一 一 释放 套 接 字 地 址 信息 


#include <sys/socket.h> 
#include <netdb.h> 


void freeaddrinfo( 
struct addrinfo *infop /* list to free */ 
) 





在 我 们 的 示例 中 没有 使 用 freeaddrinfo， 因 为 这 些 示例 都 是 main 函 数 ， 它 们 总 是 会 
退出 的 。 
8.2.7 gethostname 

有 了 时， 比如 在 8.4.4 节 中 的 Web 服 务 器 示例 程序 中 ， 程 序 需要 知道 它 自己 的 主机 名 ， 通 常 


使 用 通用 的 “localhost” 就 可 以 了 。 但 如 果 是 其 他 机 器 需要 连接 到 该 主机 名 ， 需 要 使 用 的 就 是 
系统 管理 员 分 配 的 公开 的 主机 名 。 这 正 是 gethostname 的 功能 : 


gethostname 一 一 得 到 主机 名 
#include <unistd.h> 


int gethostname( 
char *name, /* returned name */ 
size_t namelen /* size of name buffer */ 
; 
/* Returns 0 on success or -1 on error (errno not defined) */ 





8.4.4 节 中 有 使 用 gethostname 的 示例 。 


8.3 套 接 字 选项 


虽然 套 接 字 很 复杂 ， 而 socket 系统 调用 却 很 简单 ， 其 中 的 一 个 原因 就 是 所 有 的 选项 设置 
都 是 通过 一 个 单独 的 系统 调用 处 理 的 : 


setsockopt 一 一 设置 套 接 字 选项 
#include <sys/socket.h> 


int setsockopt ( 
int socket_fa, /* socket file descriptor */ 
int level, 7* level to be accessed */ 
int option, /* option to set */ 
const void *value, /* value to set */ 
socklen_t value_len /* length of value */ 


Ve 
/* Returns 0 on success or ~1 on error (sets errno) */ 





以 上 5 个 参数 中 ， 有 4 个 是 很 容易 解释 的 : socket_fd 是 套 接 字 文 件 描述 符 ，option 是 
选项 名 字 ，value 指 向 要 设置 值 的 指针 ，value_len 是 value 所 指 的 值 的 长 度 。 值 通常 为 整 


370 FSF 





型 ， 但 有 时 对 于 特定 的 选项 可 能 是 结构 类 型 ， 后 面 会 看 到 这 种 情况 。 

第 二 个 参数 level 指 明了 选项 属于 哪 种 协议 级 别 。SOL_SOCKET 级 别 适用 于 套 接 字 级 别 
本 身 ， 它 可 能 是 使 用 最 多 的 级 别 。[SUS2002] 在 <netinet/in.h> 中 定义 了 6 种 其 他 的 协议 级 别 : 

IPPROTO_IP 网 际 协议 (Internet Protocol) 

IPPROTO_IPV6 ”网 际 协议 版 本 6 (Internet Protocol Version 6) 

IPPROTO_ICMP ”控制 消息 协议 (Control message protocol) 

IPPROTO_RAW ”原始 IP 包 协议 (Raw IP Packets Protocol) 

IPPROTO_TCP 传输 控制 协议 (Transmission control protocol ) 

IPPROTO_UDP 用 户 数据 报 协议 (User datagram protocol) 

[SUS2002] 为 这 6 种 协议 定义 了 一 些 选项 ， 但 实现 时 通常 又 会 定义 其 他 的 选项 。 不 幸 的 是 ， 
很 难得 到 所 有 这 些 选 项 的 列表 ， 所 以 必须 通读 所 使 用 的 协议 的 文档 。 例 如 ， 在 Solaris 上 ， 键 
Aman ip， 就 可 以 得 到 描述 ITPPROTO_IBP 选 项 的 用 户 手册 。 

这 里 我 们 只 描述 标准 的 SOL_SOCKET 选 项 ; 其 他 级 别 的 选项 ， 请 查阅 所 使 用 的 系统 文档 
或 者 [Ste2003]。 

有 一 个 与 得 到 选项 相 匹 配 的 调用 ， 参 数 几乎 完全 相同 : 


getsockopt 一 一 得 到 套 接 字 选 项 
#include <sys/socket.h> 


int getsockopt ( 
int socket_fd, socket file descriptor */ 


int level, * level to be accessed */ 
int option, option to get */ 
void *value, * returned value */ 
socklen_t *value_len /* length of value */ 

); 

/* Returns 0 on success or -1 on error (sets errno) */ 





setsockopt 和 getsockopt 之 间 的 一 个 区 别 是 : getsockopt 的 value_len 参 数 是 
指向 长 度 的 指针 ， 在 调用 之 前 ， 必 须 将 它 指定 为 value 参 数 所 指向 的 缓冲 区 的 大 小 。 返 回 时 ， 
它 被 设置 成 返回 值 的 长 度 。 

下 面 是 设置 套 接 字 SO_REUSERADDR 选 项 的 简单 示例 (后面 会 解释 其 实际 含义 ): 


int socket_option_value = 1; 


ec_negl( setsockopt (fd, SOL_SOCKET, SO_REUSEADDR, 
&socket_option_value, sizeof (socket_option_value)) ) 


这 里 简要 介绍 一 下 SOL_SOCKET 所 有 的 可 选项 。 大 多 数 选 项 值 是 整 型 的 ， 其 中 value 必 
须 指 向 int，value_len 为 sizeof(int)。 有 些 整数 是 布尔 值 ，1 为 真 0 为 假 。 不 要 使 用 C 
语言 常量 true 来 代替 1， 因 为 true 的 值 可 能 为 -1， 这 种 情况 下 -1 对 于 C 可 能 是 正确 的 ， 但 对 
setsockopt 来 说 可 能 是 不 可 接受 的 。 在 下 面 的 清单 中 ,标记 (B) 指 的 是 布尔 值 ，(I) 指 的 
是 整 型 值 ，(X) 表示 一 个 需要 进一步 进行 解释 的 类 型 。 字 母后 面 跟 的 “s” 和 /或 “g” 是 指 选 
项 可 以 用 于 setsockopt、getsockopt 或 者 可 以 同时 用 于 两 者 。 

注意 ,一 些 选 项 是 否 真 的 做 了 什么 (比如 SO_KEEPALIVE) 取决 于 实际 的 协议 和 该 协议 
的 实现 。 

SO_ACCEPTCONN 套 接 字 正在 接受 连接 ; 也 就 是 说 ,已 经 调用 了 listen。 (Bg) 

SO_BROADCAST 如 果 协 议 支持 广播 报 文 ， 则 允许 发 送 。( Bsg) 
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SO_DEBUG 调试 信息 由 底层 协议 实现 记录 。(Bsg) 

SO_DONTROUTE 通过 标准 的 路 由 设施 来 发 送 报 文 ， 根 据 目 的 地 址 直接 到 达 网 络 接 
口 。(Bsg) 

SO_ERROR 套 接 字 错 误 状态 ， 在 取得 错误 值 后 清除 该 状态 。(1g》 

SO_KEEPALIVE 通过 周期 性 地 发 送 报 文 使 连接 处 于 活动 状态 。 如 果 没有 任何 应 答 ， 就 
断 开 套 接 字 。( 对 断 开 的 套 接 字 执行 写 操作 ， 就 如 同 写 一 个 没有 读者 的 管道 ， 会 产生 
SIGPIPE{#S.) (Bsg) 

SO_LINGER 设置 了 该 选项 时 ， 如 果 有 未 发 送 完 的 报 文 ， 那 么 会 导致 cLlose 调 用 阻塞 进 
程 ， 直 到 所 剩 数据 发 送 完毕 或 超时 。(Xsg) 值 是 一 个 1inger 结 构 : 

struct linger ( ; 

int l_onoff; 1* FF (1) RR (0) */ 

int llinger; /* 以 秒 计算 的 延迟 时 间 */ 

SO_OOBINLINE 接收 到 的 带 外 数据 为 内 嵌 式 ( 见 8.7 节 )。( Bsg) 

SO_RCVBUF 接收 缓冲 区 的 大 小 。(Isg) 

SO_RCVLOWAT ”接收 低潮 标志 。 阻 塞 接收 操作 (例如 read) 处 于 阻塞 状态 ， 除 非 接收 
的 数量 少 于 该 数 和 所 要 求 的 数 。 默 认为 1。(Isg) 

SO_RCVTIMEO ”使 用 timeval 结 构 ( 见 1.7.1 节 ) 表示 等 待 阻 塞 接收 操作 完成 的 最 大 时 
间 。0 时 间 (默认 ) 表示 无 限 。 如 果 时 间 用 完 ， 该 操作 返回 一 个 部 分 的 计数 ， 或 者 在 返回 -1 的 
同时 将 errno 设 置 为 BAGAITN 或 EWOULDBLOCK。(Xsg) 

SO_REUSEADDR bind 人 允许 复 用 本 地 地 址 。 否 则 ， 如 果 前 一 个 bind 在 系统 规定 时 间 
(比如 几 分 钟 ) 内 已 经 发 生 过 ， 则 bind 返 回 -1 的 同时 会 将 errno 设 置 为 BADDRINUSE。 调 试 
和 测试 非常 方便 。( Bsg) 

SO_SNDBUF 发 送 缓冲 区 的 大 小 。 该 选项 取 整 数值 。(Isg) 

SO_SNDLOWAT ”发送 低潮 标志 。 非 阻塞 性 发 送 操作 (比如 write) 不 发 送 任何 数据 ， 除 
非 能 够 立即 发 送 的 量 少 于 该 数 和 所 要 求 的 数 。(Isg ) 

SO_SNDTIMEO 使 用 timeval 结 构 ( 见 1.7.1 节 ) 表示 等 待 阻塞 发 送 操作 完毕 的 最 大 时 
间 。0 时 间 (默认 ) 表示 无 限 。 如 果 时 间 用 完 ， 该 操作 返回 一 个 部 分 计数 ， 或 者 返回 -1 的 同时 
设置 errno 为 EAGAIN 或 EWOULDBLOCK。 (Xsg) 

SO_TYPE 套 接 字 类 型 (比如 SOCK_STRERAM)。(Jsg) 

为 了 说 明 这 些 选项 是 如 何 与 getsockopt 一 起 使 用 的 ， 下 面 这 个 程序 显示 了 几 种 不 同类 
型 的 套 接 字 的 值 : 


typedef enum {OT_INT, OT_LINGER, OT_TIMEVAL) OPT_TYPE; 


static void show(int skt, int level, int option, const char ‘name, 
OPT_TYPE type) 
{ 
socklen_t len; 
int n; 
struct linger lng; 
struct timeval tv; 


switch (type) { 
case OT_INT: 
len = sizeof (n); 
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} 


if (getsockopt(skt, level, option, &n, &len) == -1) 
print£("%s FAILED (%s)\n", name, strerror(errno)); 

else 
printf("ts = @d\n", name, n); 

break; » 

case OT_LINGER: 

len = sizeof (1ng); 

if (getsockopt(skt, level, option, &lng, &len) == -1) 
printf ("%s FAILED (%s)\n*, name, strerror (errno) ); 





else 
printf ("8s 
lng.l_onoff, 1ng.1_linger); 
break; 
case OT_TIMEVAL: 
len = sizeof (tv); 
if (getsockopt (skt, level, option, &tv, &len) == -1) 
printf(*%s FAILED (ts)\n", name, strerror (errno) ); 
else 
printf ("%s = %ld secs.; %ld usecs.\n", name, 
(long) tv.tv_sec, (long)tv.tv_usec); 





static void showall(int skt, const char *caption) 


{ 


int 


printf ("\ngs\n", caption); 


show(skt, SOL_SOCKET, SO_ACCEPTCONN, *SO_ACCEPTCONN*, OT_INT); 


show(skt, SOL_SOCKET, SO_BROADCAST, "SO_BROADCAST", OT_INT); 
show(skt, SOL_SOCKET, SO_DEBUG, "SO_DEBUG", OT_INT); 
show(skt, SOL_SOCKET, SO_DONTROUTE, *SO_DONTROUTE", OT_INT); 
show(skt, SOL_SOCKET, SO_ERROR, "SO_ERROR", OT_INT); 
show(skt, SOL_SOCKET, SO_KEEPALIVE, *SO_KEEPALIVE", OT_INT); 
show(skt, SOL_SOCKET, SO_LINGER, "SO_LINGER", OT_LINGER); 
Show(skt, SOL_SOCKET, SO_OOBINLINE, *SO_OOBINLINE*, OT_INT); 
show(skt, SOL_SOCKET, SO_RCVBUF, "SO_RCVBUF*, OT_INT); 
show(skt, SOL_SOCKET, SO_RCVLOWAT, *"SO_RCVLOWAT", OT_INT); 





show(skt, SOL_SOCKET, SO_RCVTIMEO, *SO_RCVTIMEO", OT_TIMEVAL) ; 


show(skt, SOL_SOCKET, SO_REUSEADDR, “SO_REUSEADDR*, OT_INT); 
show(skt, SOL_SOCKET, SO_SNDBUF, "SO_SNDBUF", OT_INT); 
show(skt, SOL_SOCKET, SO_SNDLOWAT, *SO_SNDLOWAT*, OT_INT); 





show(skt, SOL_SOCKET, SO_SNDTIMEO, *SO_SNDTIMEO", OT_TIMEVAL) ; 


show(skt, SOL_SOCKET, SO_TYPE, "SO_TYPE*, OT_INT); 


main(void) 
int skt; 


ec_negl( skt = socket (AF_INET, SOCK_STREAM, 0) ) 
showall(skt, "AF_INET SOCK_STREAM") ; 

ec_negl( close(skt) ) 

ec_negl( skt = socket (AF_INET, SOCK_DGRAM, 0) ) 
showall(skt, "AF_INET SOCK_DGRAM") ; 

ec_negl( close(skt) ) ‘ 
exit (EXIT_SUCCESS) ; 


EC_CLEANUP_BGN 


exit (EXIT_FAILURE) ; 


EC_CLEANUP_END 


} 


l_onoff: %d; l_linger: %d secs.\n", name, 
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在 Solaris 上 的 输出 为 : 


AF_INET SOCK_STREAM 
SO_ACCEPTCONN = 0 ‘ 
SO_BROADCAST = 0 

SO_DEBUG = 0 


SO_KEEPALIVE = 0 
SO_LINGER = l_onoff: 0; l_linger: 0 secs. 
SO_OOBINLINE 
SO_RCVBUF = 65536 

SO_RCVLOWAT FAILED (Option not supported by protocol) 
SO_RCVTIMEO FAILED (Option not supported by protocol) 
SO_REUSEADDR = 0 

SO_SNDBUF = 65536 

SO_SNDLOWAT FAILED (Option not supported by protocol) 
SO_SNDTIMEO FAILED (Option not supported by protocol) 
SO_TYPE = 2 





AF_INET SOCK_DGRAM 
SO_ACCEPTCONN = 0 

SO_BROADCAST = 0 

SO_DEBUG = 0 

SO_DONTROUTE = 0 

SO_ERROR = 0 

SO_KEEPALIVE = 0 

SO_LINGER = l_onoff: 0; l_linger: 0 secs. 
SO_OOBINLINE = 0 

SO_RCVBUF = 65536 

SO_RCVLOWAT FAILED (Option not supported by protocol) 
SO_RCVTIMEO FAILED (Option not supported by protocol) 
SO_REUSEADDR = 0 

SO_SNDBUF = 65536 

SO_SNDLOWAT FAILED (Option not supported by protocol) 
SO_SNDTIMEO FAILED (Option not supported by protocol) 
SO_TYPE = 1 








td 


8.4 简单 套 接 字 接 口 


当 需 要 使 用 套 接 字 时 ， 一 般 不 是 调用 getaddrinfo、socket、bind、connect 或 其 
他 相关 的 函数 ， 而 是 编写 更 高 层 的 函数 来 隐藏 其 中 一 些 宛 长 的 细节 。 这 里 称 这 些 函 数 接口 为 
SSI, Hil A #44842 @ (Simple Socket Interface, SSI). 


8.4.1 SSI 函 数 调 用 
SSI 函 数 将 打开 连接 的 状态 保存 在 SSI 结 构 类 型 中 ， 后 面 马 上 就 会 讲 到 这 些 。 当 调用 
ssi_open 时 ， 就 能 得 到 指向 SSI 的 指针 ; 完成 任务 后 ， 使 用 ssi_close 关 闭 SSI。 


ssi_open 一 一 打开 SSI 连 接 


SSI *ssi_open( 
const char *name, /* server name */ 
bool server /* called from server? */ 










de 
/* Returns pointer to SSI or NULL on error (sets errno) */ 
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ssi_close 一 一 关闭 SSI 连 接 


bool ssi_close( 
SSI *ssip /*\pointer to SSI */ 


ds 
/* Returns true on success or false on error (sets errno) */ 





可 以 看 出 ，ssi_open 封 装 了 套 接 字 地 址 的 构建 (比如 通过 调用 getaddrinfo) 及 对 
socket、bind、1listen 和 connect 的 调用 。 

如 果 传递 给 ssi_open 的 名 字 以 两 条 正 斜 杠 开始 (它们 不 是 名 字 的 一 部 分 )， 那 么 这 个 名 
字 就 作为 AF_INET 主 机 名 字 ， 名 字 后 面 必须 紧 跟 冒号 和 端口 号 。 如 果 它 不 以 两 个 正 斜 杠 开始 ， 
那么 这 个 名 字 就 是 一 个 如 8.1.1 节 所 讲 的 本 地 AF_UNIX 名 字 一 样 。 比 如 : 

//www.basepath.com:80 连接 到 www.basepath.com 主 机 的 80 端 口 的 AF_INET 连 接 

//firecracker:31000 连接 到 firecracker 主 机 31000 端 口 的 AF_INET 连 接 

//216.109.125.43:21 216.109.125.43 主 机 21 端 口 的 AF_INET 连 接 

MyServer AF_UNIX 连 接 

服务 器 调用 ssi_wait_server 等 待 客户 端 文件 描述 符 准 备 好 ; 它 封装 了 对 select 和 
accept 的 调用 ， 我 们 在 8.1.3 节 中 讲 到 过 : 


ssi_wait_server 一 一 等 待 文件 描述 符 准备 好 


int ssi_wait_server ( 
SSI *ssip /* pointer to SSI */ 





Ve 
/* Returns file descriptor or -1 on error (sets errno) */ 


客户 端 调用 ssi_get_server_fd 得 到 与 服务 器 之 间 的 连接 的 文件 描述 符 : 
ssi_get_server_fd 一 一 得 到 服务 器 的 文件 描述 符 


int ssi_get_server_fd( 
SSI *ssip /* pointer to SSI */ 






) 
/* Returns file descriptor or -1 on error (sets errno) */ 


最 后 ， 当 服务 器 从 客户 端 文件 描述 符 中 得 到 EOF 标 记 或 者 知道 不 再 需要 它 时 ， 服 务 器 就 
调用 ssi_close_fd: 
ssi_close_fd 一 一 关闭 客户 文件 描述 符 
bool ssi_close_fd( 


SSI *ssip, /* pointer to SSI */ 
int fd /* file descriptor */ 


ve 
/* Returns true on success or false on error (sets errno) */ 





以 上 这 些 就 是 我 们 通过 AF_UNIX 或 AF_INET 采 用 有 连接 (SOCK_STREAM) 客户 端 来 实 
现 简单 服务 器 和 客户 端 时 所 需要 的 全 部 函数 。 后 面 将 会 给 出 简单 的 Web 浏 览 器 和 简单 的 Web 服 
务 器 ， 届 时 将 说 明 如 何 使 用 这 些 函 数 。 然 后 讲解 SSI 的 实现 。 


8.4.2 HTTP 简 介 
超 文本 传输 协议 (HTTP) 是 由 因特网 工程 任务 组 (Internet Engineering Task Force, 
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IETF) 在 一 份 称 为 RFC 2616 的 文档 中 定义 的 。 在 它们 的 Web 站 点 [RFC] 上 ， 可 以 读 到 全 部 的 
RFC 以 及 其 他 文档 。 下 面 是 对 HTTP 非 常 简单 的 介绍 一 一 仅 足 够 理解 本 节 中 的 例子 。 

对 于 HTTP， 客 户 端 通常 是 Web 浏 览 器 ， 服 务 器 是 Web 服 务 器 。 一 旦 建立 了 连接 ， 客 户 端 
通过 向 服务 器 发 送 以 下 形式 的 字符 串 来 开始 交互 : 

GET path HTTP/version \r\n\r\n 
其 中 ，path 是 要 求 的 文档 (比如 /index.html)，version 是 所 使 用 的 HTTP 版 本 (比如 1.0)。 

服务 器 判断 该 文档 是 否 存 在 ， 客 户 端 是 否 有 权 访 问 该 文档 。 如 果 不 允 许 访问 ， 它 将 用 如 
下 状态 行 应 答 : 

HTTP/1.1 404 Not Found\r\n 

后 面 还 跟 有 一 个 HTML 文 档 对 错误 进行 解释 。( 后 面 马上 会 解释 文档 是 如 何 发 送 的 。) 

如 果 该 文件 可 以 发 送 ， 那 么 状态 行 类 似 于 : 

HTTP/1.1 200 OK\r\n 

每 一 份 文档 ， 不 管 是 HTML 文 本 、JPEG 或 其 他 任何 东西 ， 前 面 都 有 一 个 头 对 其 进行 描述 。 
这 个 头 描述 有 统一 的 形式 至少 在 本 书 的 例子 中 是 这 样 的 ): 

Server: servername\r\n 


Content-Length: length\r\n 
Content-Type: ppe\r\n\r\n 


servername 可 以 是 任何 名 字 ; 这 里 使 用 “AUP-ws” 作 为 服务 器 。length 是 以 字 节 表示 的 
文档 的 长 度 ， 这 样 客户 端 就 知道 要 读 的 数据 有 多 少 。 因 为 客户 端 不 需要 以 EOF 告 知 停止 读数 
据 ， 所 以 连接 就 可 以 保持 打开 状态 。type 是 所 谓 的 多 用 途 因特网 邮件 扩展 (Multipurpose 
Internet Mail Extension, MIME) 类 型 ， 该 类 型 中 我 们 关注 的 有 两 种 :“text/html” 和 
“image/jpeg”( 还 有 几 十 种 )。 头 之 后 就 是 文档 ， 和 在 服务 器 文件 系统 中 完全 一 致 。 


8.4.3 SSI Web 浏 览 器 

这 里 有 一 个 简单 的 Web 浏 览 器 ， 称 为 ninibr。 如 前 面 的 例子 所 示 ， 它 可 以 检索 HTML; 
但 是 ， 它 不 知道 如 何 解释 这 些 标签 以 达到 很 好 的 屏幕 显示 效果 ， 所 以 就 简单 地 将 所 有 东西 转 
储 到 标准 输出 上 : 


int main(void) 
t 
char url{100], s{500], *path = **, *p; 
SSI *ssip; 
int få; 
ssize_t nread; 


while (true) { 
printf ("URL: *); 


if (fgets(url, sizeof (url), stdin) == NULL) 
break; 
if ((p = strrchr(url, '\n')) != NULL) 
“p= non 
if ((p = strchr(url, '/')) != NULL) { 
path = p + 1; 
*p = '\0'; 


} 

snprintf(s, sizeof(s), *//%s:80", url); 
ec_null( ssip = ssi_open(s, false) ) 
ec_negl( fd = ssi_get_server_fd(ssip) ) 
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snprint£(s, sizeof(s), "GET /%s HTTP/1.0\r\n\r\n", path); 
ec_negl( writeall(fd, s, strlen(s)) ) 
while (true) { 
switch (nread = read(fd, s, sizeof(s))) { 
case 0: 
printf ("EOF\n"); 
break; 
case -1: 
EC_FAIL 
default: 
ec_negl( writeall(STDOUT_FILENO, s, nread) ) 
continue; 
b 
break; 
} 
ec_false( ssi_close(ssip) ) 
} 
ec_false( !ferror(stdin) ) 
exit (EXIT_SUCCESS) ; 


EC_CLEANUP_BGN 

exit (EXIT_FAILURE) ; 
EC_CLEANUP_END 
} 


紧 随 调用 fgets 后 的 代码 把 输入 的 URL 分 成 了 两 部 分 : 主机 名 和 路 径 (如 8.2.5 节 所 讲 )。 
在 主机 名 前 面 加 上 斜 枉 ， 后 面 加 上 端口 80， 之 后 传递 给 ssi_open。 当 建立 连接 后 ， 路 径 被 
格式 化 成 发 送 给 Web 服 务 器 的 HTTP GET 请 求 。 

下 面 是 minibzr 会 话 的 简单 示例 ， 其 中 大 大 地 简化 了 每 一 个 检索 到 的 页 : 


URL: www.basepath.com 
HTTP/1.1 200 OK 

Date: Sat, 19 Jul 2003 19:01:41 GMT 

Server: Apache/1.3.27 (Unix) FrontPage/5.0.2.2510 mod_jk/1.1.0 
Last-Modified: Thu, 15 May 2003 19:56:49 GMT 

ETag: *61744-191-3ec3£101" 

Accept-Ranges: bytes 

Content-Length: 401 

Connection: close 

Content-Type: text/html 

<!DOCTYPE HTML PUBLIC *-//IETF//DTD HTML//EN*> 

<html> 









<head> 





URL: 216.109.125.70 
HTTP/1.1 200 OK 

Date: Sat, 19 Jul 2003 19:02:49 GMT 

P3P: policyref="http://p3p.yahoo.com/w3c/p3p.xml", CP="CAO DSP COR CUR ADM 








Cache-Control: private 
Connection: close 
Content-Type: text/html 
<htm1><head> 


<title>Yahoo!</title> 
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8.4.4 SSI Web 服务 器 


到 目前 为 止 , 已 经 讲解 了 客户 端的 情况 一 一 现在 要 讲解 的 就 是 服务 器 了。 简单 Web 服 务 器 
查找 来 自 客户 端的 GET 请 求 ， 抽 取出 路 径 ， 然 后 写 出 响应 ， 并 紧 跟 要 发 给 客户 端的 文件 描述 
符 ， 如 8.4.2 节 所 示 。 

服务 器 端 程序 以 一 些 宏 定义 开始 ， 这 些 宏 表明 了 它 所 能 提供 的 HTTP 了 响应 和 “not found” 
错误 的 HTML 代 码 : 


#define HEADER\ 
"HTTP/1.0 %s\r\n"\ 
"Server: AUP-ws\r\n"\ 
"Content-Length: %ld\r\n" 


#define CONTENT_TEXT\ 
"Content-Type: text/html\r\n\r\n* 


#define CONTENT_JPEG\ 
"Content-Type: image/jpeg\r\n\r\n* 


#define HTML_NOTFOUND\ 
"<!DOCTYPE html PUBLIC \*-//IETF//DTD HTML 2.0//EN\">\n"\ 
“<html><head><title>Error 404</title>\n"\ 
"</head><body>\n"\ 
"<h2>AUP-ws server can't find document</h2>"\ 
"</body></htm1>\r\n" 


注意 ， 当 函数 send_header 正 使 用 HEADER 时 ，HEADER 包 含 的 格式 代码 会 被 状态 代码 
和 内 容 长 度 所 取代 : 


static void send_header(SSI *ssip, const char *msg, off_t len, 
const char ‘path, int fd) 
人 
char buf[1000], *dot; 


snprintf (buf, sizeof(buf), HEADER, msg, (long)len); 

ec_neg1( writeall(fd, buf, strlen(buf)) ) 

dot = strrchr (path, '.'); 

if (dot != NULL && (strcasecmp(dot, *.jpg") == 0 || 
strcasecmp(dot, *.jpeg*) == 0)) 


ec_negl( writeall(fd, CONTENT_JPEG, strlen(CONTENT_JPEG)) ) 
else 


ec_negl( writeall(fd, CONTENT_TEXT, strlen(CONTENT_TEXT)) ) 
return; 


EC_CLEANUP_BGN 
EC_FLUSH("Error sending response (nonfatal) *) 

EC_CLEANUP_END 

) 
该 函数 调用 了 带 有 “404 Not Found” 或 者 “200 OK” 的 消息 参数 msg， 正 如 在 8.4.2 节 所 解释 
的 那样 。Len 参 数 是 文档 的 长 度 ，path 是 其 文件 名 字 ， 仅 仅 用 来 判断 文件 是 JPEG 还 是 ETML。 
send_header 的 调用 者 负责 发 送 该 文件 。 

send_header 被 函数 handle_request 调 用 ，handle_request 负 责 处 理 GET 请 求 : 

#define DEFAULT_DOC "index.html" 

#define WEB_ROOT */aup/webroot/* 


static bool handle_request (SSI *ssip, char *s, int fd) 
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char *tkn, buf[1000], path[{500); 
int ntkn; 

FILE *in; 

struct stat statbuf; 

ssize_t nread; 


for (ntkn = 1; (tkn = strtok(s, * *)) != NULL; ntkn++) { 
s = NULL; 
switch (ntkn) { 
case 1: 


if (strcasecmp(tkn, "get") != 0) { 
printf ("Unknown request\n"); 


return false; 
$ 
continue; 
case 2: 
break; 
} 
break; 


) 
snprintf(path, sizeof(path) - 1 - strlen(DEFAULT_DOC), 


*§s¥s", WEBLROOT, tkn); 
if (stat(path, gstatbuf) == 0 && S_ISDIR(statbuf.st_mode)) ( 
if (path[strlen(path) - 1) != '/") 
strcat (path, */*); 
strcat (path, DEFAULT_DOC); 
3 
if (stat(path, &statbuf) 
(in = fopen(path, "rb 
send_header(ssip, "404 Not Found", strlen(HTML_NOTFOUND) , 
fa); 
ec_negl( writeall (fa, HTML_NOTFOUND, strlen(HTML_NOTFOUND)) ) 
return false; 





} 
send_header (ssip, "200 OK", statbuf.st_size, path, fd); 


while ((nread = fread(buf, 1, sizeof(buf), in)) > 0) 
ec_negl( writeall(fd, buf, nread) ) 

ec_eof( fclose(in) ) 

return true; 


EC_CLEANUP_BGN 
EC_FLUSH("Error sending response (nonfatal)") 


return false; 

EC_CLEANUP_END 

) 
for 循 环 只 是 用 来 检查 请 求 是 否 确实 是 某 种 GET 请 求 并 抽出 路 径 名 (这 个 路 径 名 作为 
WEB_ROOT 的 子 目录 )， 以 确保 不 是 将 本 地 系统 上 的 所 有 路 径 都 提出 来 。 如 果 该 路 径 是 目录 ， 
那么 会 在 该 路 径 后 加 上 默认 的 HTML 文 件 index.html; 否则 ， 该 路 径 被 假定 以 HTML 或 JPEG 文 
件 命名 。 

如 果 路 径 不 存在 ， 就 送 回 404 头 ， 后 面 会 跟 一 些 HTML。 和 否则 ， 送 回 200 头 ， 后 面 跟 的 是 
对 应 的 文件 。 注 意 : 该 文件 可 能 是 文本 或 二 进 制 JPEG。 

最 后 ， 看 一 看 主 程序 。 该 主 程序 包含 了 处 理 与 客户 端 连接 的 实际 工作 中 所 调用 的 SSI 
函数 : 
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define PORT ":8000" 


int main(void) 

{ 
SSI *ssip = NULL; 
char msg{1600]; 
ssize_t nrev; 
int fd; 
char host [100] = *//*; 


ec_negl( gethostname(&host[2], sizeof(host) - 2 - strlen(PORT)) ) 
strcat (host, PORT); 
printf ("Connecting to host \"ts\"\n", host); 
ec_null( ssip = ssi_open(host, true) ) 
printf£("\t...connected\n") ; 
while (true) { 
ec_negl( fd = ssi_wait_server(ssip) ) 
switch (nrcv = read(fd, msg, sizeof(msg) - 1)) { 
case -1: 
printf ("Read error (nonfatal) \n"); 
/* fall through */ 
case 0: 
ec_false( ssi_close_fd(ssip, fd) ) 
continue; 
default: 
msg(nrev] = '\0'; 
(void)handle_request (ssip, msg, fd); 
} 
} 
ec_false( ssi_close(ssip) ) 
print£("Done.\n") ; 
exit (EXIT_SUCCESS) ; 


EC_CLEANUP_BGN 
return EXIT_FAILURE; 

EC_CLEANUP_END 

3 


ssi_open 所 用 的 服务 器 名 字形 式 上 类 似 于 : 

/Shost:8000 
之 所 以 使 用 端口 8000， 是 因为 该 系统 中 端口 80 已 经 被 一 个 实际 的 Web 服 务 器 (Apache) 使 用 ， 
而 且 1024 以 下 的 端口 号 只 能 由 超级 用 户 使 用 。 

该 函数 进行 连接 ， 然 后 进入 一 个 循环 。 在 该 循环 中 先 等 待 准备 好 的 文件 描述 符 ， 再 读 进 
一 条 命令 ， 然 后 将 该 命令 送 给 handle_request 函 数 。 如 果 客 户 端 中 断 ， 或 者 简单 关闭 连接 
(有 些 客户 有 时 会 做 该 操作 )， 服 务 器 会 得 到 EOF 标 记 。 这 种 情况 下 ， 就 像 8.1.3 节 所 讲 的 那样 ， 
程序 就 必须 调用 ssi_close_fd 来 告知 ssi_wait_server 不 要 再 考虑 那个 文件 描述 符 。 

这 个 Web 服 务 器 确实 管用 ， 你 可 以 使 用 任何 浏览 器 对 它 进行 访问 ， 不 限于 前 一 节 中 所 讲 
的 那个 简单 浏览 器 。 例 如 ， 图 8-3 展 示 了 采用 URL http://suse2:8000 访 问 服务 器 的 结果 : 

服务 器 (之 所 以 被 称 为 suse2 是 因为 它 上 面 运行 的 是 SuSE Linux) [-aup/webroot/index. 
html 的 HTML 代 码 是 : 


<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2 Final//EN"> 
<html> 
<head> 
</head> 
<body> 
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<hl>Marc's Bike</hl> 
<p><img src="picture. jpg*> 
</body> 
</html> 








图 8-3 在 Macintosh 机 器 上 采用 Safari 浏 览 器 访问 SSI Web 服 务 器 


8.4.5 SSI 实现 

已 经 讨论 了 在 实现 SSI 函 数 中 所 涉及 的 所 有 问题 ， 还 给 出 了 一 两 个 例子 的 完整 代码 。 可 以 
复习 8.1.3 节 、8.2.2 节 和 8.2.6 节 。 

下 面 是 SSI 类 型 的 结构 : 


#define SSI_NAME_SIZE 200 


typedef struct { 


bool ssi_server; /* server? (vs. client) */ 

int ssi_domain; /* AF_INET or AF_UNIX */ 

int ssi_fd; /* socket fd */ 

char ssi_name_server[SSI_NAME_SIZE]; /* server name */ 

fd_set ssi_fd_set; /* set for server's select */ 

int ssi_fd_hwm; /* high-water-mark for fds seen */ 
} SSI; 


在 后 面 的 代码 分 析 中 将 会 看 到 这 些 成 员 变量 是 如 何 使 用 的 。 

先 看 一 个 经 常 使 用 的 函数 make_sockaddr。 该 函数 用 来 建立 AF_UNIX 或 AF_INET 的 套 
接 字 地 址 。AF_INET 的 名 字 参 数 是 主机 : 端口 格式 的 ， 而 AF_UNIX 的 名 字 参 数 只 是 一 般 的 名 
字 。wil1_bind 参 数 表明 套 接 字 地 址 是 否 会 用 于 binad 或 connect ， 如 8.2.6 节 所 述 。 

bool make_sockaddr (struct sockaddr *sa, socklen_t *len, const char *name, 

int domain, bool will_bind) 


{ 
struct addrinfo *infop = NULL; 


if (domain == AF_UNIX) { 
struct sockaddr_un *sunp = (struct sockaddr_un *)sa; 
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if (strlen(name) >= sizeof(sunp->sun_path)) ( 
errno = ENAMETOOLONG; 
EC_FAIL 
$ 
strcpy (sunp->sun_path, name); 
sunp->sun_family = AF_UNIX; 
*len = sizeof (*sunp); 
} 
else { 
struct addrinfo hint; 
char nodename[SSI_NAME_SIZE], *servicename; 


memset (&hint, 0, sizeof (hint)); 
hint.ai_family = domain; 
hint.ai_socktype = SOCK_STREAM; 
if (will_bind) 
hint.ai_flags = AI_PASSIVE; 
strepy(nodename, name); 
servicename = strchr(nodename, ':'); 
if (servicename == NULL) { 
errno = EINVAL. 
EC_FAIL 








} 
*servicename = '\0'; 

servicename++; 

ec_ai( getaddrinfo(nodename, servicename, &hint, &infop) 
memcpy(sa, infop->ai_addr, infop->ai_addrlen) ; 

*len = infop->ai_addrien; 

freeaddrinfo(infop! 





} 


return true; 


EC_CLEANUP_BGN 
if (infop != NULL) 
freeaddrinfo(infop) ; 
return false; 
EC_CLEANUP_END 
} 


这 里 故意 将 nake_sockaddr 从 SSsI 结 构 中 摘 了 出 来 ， 以 便 在 你 需要 时 可 以 将 其 抽出 用 于 你 
自己 的 程序 。 

接 下 来 来 看 ssi_open 和 ssi_close 中 使 用 的 两 个 函数 ， 这 两 个 函数 用 来 维护 文件 描述 
符 的 高 水 位 标志 ， 如 8.1.3 节 所 示 


static void set_fd_hwm(SSI *ssip, int fd) 
t 
if (fd > ssip->ssi_fd_hwm) 
ssip->ssi_fd_hwm = fd; 
) 


static void reset_fd_hwm(SSI *ssip, int fd) 
{ 
if (fd == ssip->ssi_fd_hwm) 
ssip->ssi_fd_hwm--; 





} 
现在 来 看 是 ssi_open ， 这 个 函数 能 完成 已 经 讲 过 得 很 多 功能 : 


SSI *ssi_open(const char *name_server, bool server) 
{ 
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SSI 


*ssip = NULL; 


struct sockaddr_storage sa; 
socklen_t sa_len; 


ec_null( ssip = calloc(1, sizeof(SSI)) ) 
ssip->ssi_server = server; 


if ( 


} 


strncmp(name_server, "//*, 2) == 0) { 
ssip->ssi_domain = AF_INET; 
name_server += 2; 


else { 


$ 


if (strlen(name_server) >= sizeof (ssip->ssi_name_server)) { 


} 


strc] 


ec_false( make_sockaddr ( (struct sockaddr *)&sa, &sa_len, 
ssip->ssi_name_server, ssip->ssi_domain, ssip->ssi_server) ) 


ec_negl( ssip->ssi_fd = socket (ssip->ssi_domain, SOCK_STREAM, 0) ) 


ssip->ssi_domain = AF_UNIX; 
if (ssip->ssi_server) 
(void) unlink (name_server) ; 


errno = ENAMETOOLONG; 
EC_FAIL 


‘py (ssip->ssi_name_server, name_server) ; 


set_fd_hwm(ssip, ssip->ssi_fd); 


if ( 


} 
if ( 


$ 
else 


retu: 


ssip->ssi_domain == AF_INET) { 
int socket_option_value = 1; 





ec_negl( setsockopt (ssip->ssi_fd, SOL_SOCKET, SO_REUSEADDR, 
&socket_option_value, sizeof (socket_option_value)) ) 


ssip->ssi_server) ( 
FD_2ERO(&ssip->ssi_fd_set) ; 


ec_negl( bind(ssip->ssi_fd, (struct sockaddr *)&sa, 


ec_negl( listen(ssip->ssi_fd, SOMAXCONN) 
FD_SET(ssip->ssi_fd, &ssip->ssi_fd_set); 


ec_negl( connect (ssip->ssi_fd, (struct sockaddr 


rn ssip; 


EC_CLEANUP_BGN 


free 
retu: 


(ssip); 
rn NULL; 


EC_CLEANUP_END 


} 


在 8.3 节 中 解释 了 套 接 字 选 项 SO_REUSEADDR。 
关闭 SSI 是 很 简单 的 : 


bool ssi_close(SSI *ssip) 


{ 


if (ssip->ssi_server) { 


int fd; 


for (fd = 0; fd <= ssip->ssi_fd_hwm; fd++) 


if (FD_ISSET(fd, &ssip->ssi_fd_set)) 
(void) close(fd) ; 
if (ssip->ssi_domain == AF_UNIX) 
(void) unlink (ssip->ssi_name_server) ; 
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else 
(void) close (ssip->ssi_fd); 
free(ssip); 
return true; 
f 


下 面 来 看 ssi_wait_server， 该 函数 只 是 重 写 了 8.1.3 节 中 的 代码 ， 只 不 过 它 返 回 的 是 
准备 好 的 文件 描述 符 ( 即 ， 不 同 于 服务 器 的 套 接 字 ) 而 不 是 自己 使 用 这 个 参数 : 


int ssi_wait_server(SSI *ssip) 
{ 
if (ssip->ssi_server) { 
fd_set fd_set_read; 
int fd, clientfd; 
struct sockaddr_un from; 
socklen_t from_len = sizeof (from); 


while (true) { 
fd_set_read = ssip->ssi_fd_set; 
ec_negl( select (ssip->ssi_fd_hwm + 1, &fd_set_read, NULL, NULL, 
NULL) ) 
for (fd = 0; fd <= ssip->ssi_fd_hwm; fd++) 
if (FD_ISSET(fd, &fd_set_read)) { 
if (fd == ssip->ssi_fd) ( 
ec_negl( clientfd = accept (ssip->ssi_fd, 
(struct sockaddr *)&from, &from_len) ); 

FD_SET(clientfd, &ssip->ssi_fd_set); 
set_fd_hwm(ssip, clientfd); 


continue; 
) 
else 
return fd; 
) 
) 
) 
else { 
errno = ENOTSUP; 
EC_FAIL 
) 
EC_CLEANUP_BGN 
return -1; 
EC_CLEANUP_END 
) 
还 有 两 个 不 重要 的 函数 : 
int ssi_get_server_fd(SsI *ssip) 
í 


return ssip->ssi_fd; 
} 


bool ssi_close_fd(SSI *ssip, int fd) 
{ 
ec_negl( close(fd) ); 
FD_CLR(fd, &ssip->ssi_fd_set); 
reset_fd_hwm(ssip, fd); 
return true; 


EC_CLEANUP_BGN 
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return false; 
EC_CLEANUP_END 
J 


所 有 这 些 就 是 全 部 的 实现 了 。 对 于 有 连接 套 接 字 (SOCK_STREAM)， 在 以 后 的 示例 中 不 
必 再 使 用 任何 的 原始 系统 调用 了 。 


8.5 SMI 套 接 字 实 现 


用 套 接 字 来 实现 第 7 章 的 简单 消息 接口 (SMI) 是 很 有 趣 的 ， 这 样 可 以 将 它 和 第 7 章 的 其 
他 5 种 实现 进行 对 比 。 因 为 我 们 可 以 使 用 前 一 节 的 SSI 函 数 ， 不 用 直接 调用 各 种 与 套 接 字 相关 
的 系统 调用 ， 所 以 这 项 工作 很 简单 。 

本 节 假 定 你 很 熟悉 第 7 章 以 及 那 一 章 的 SMI 实 现 ; 如 果 你 不 是 很 熟悉 ， 那 么 可 以 暂时 跳 过 
这 一 节 ， 直 到 你 有 时 间 阅 读 第 7 章 一 一 否则 ， 阅 读本 章 毫 无 意义 。 

对 于 套 接 字 ， 内 部 的 SMIQ_SKT 结 构 很 简单 ， 很 大 原因 在 于 跟踪 客户 端的 工作 (这 对 其 
他 实现 来 说 是 很 麻烦 的 ) 在 这 种 情况 下 是 由 accept 系 统 调用 完成 的 ， 而 且 使 用 SSI 来 处 理 了 
大 量 的 细节 : 


typedef struct ( 
SMIENTITY sq_entity; /* entity */ 


SSI *sq_ssip; /* structure for SSI */ 
struct client_id sqclient; /* client ID */ 
size_t sq_msgsize; /* msg size */ 
struct smi_msg *sq msg; /* msg buffer */ 
) SMIQ_SKT; 


因为 ssi_open 完 成 了 大 多 数 工 作 ， 所 以 打开 SMIQ_SKT 没 有 多 少 工作 要 做 : 


SMIQ *smi_open_skt (const char *name, SMIENTITY entity, size_t msgsize) 


t 
SMIQ_SKT *p = NULL; 


ec_null( p = calloc(1, sizeof (SMIQ_SKT)) ) 
p->sq_msgsize = msgsize + offsetof (struct smi_msg, smi_data); 
ec_null( p->sq msg = calloc(1, p->sq msgsize) ) 

p->sqentity = entity; 

ec_null( p->sq_ssip = ssi_open(name, entity == SMI_SERVER) ) 
return (SMIQ *)p; 


EC_CLEANUP_BGN 
(void)smi_close_skt ((SMIQ *)p); 
return NULL; 

EC_CLEANUP_END 

pi 


同样 关闭 如 下 : 


bool smi_close_skt (SMIQ *sqp) 

{ 
SMIQ_SKT *p = (SMIQ_SKT *)sqp; 
SSI *ssip; 


if (p != NULL) { 
ssip = p->sq_ssip; 
free(p->sq_msg) ; 
free(p); 


ABRERF 385 





if (ssip != NULL) 
ec_false( ssi_close(ssip) ) 
} 
return true; 


EC_CLEANUP_BGN 
return false; 

EC_CLEANUP_END 

} 


与 第 7 章 中 的 一 些 其 他 实现 一 样 ， 如 果 smi_send_getaddr_skt 是 由 服务 器 调用 的 ,并 
且 返 回 消 息 地 址 ， 那 么 所 有 的 smi_send_getaddr_skt 必 须要 作 的 是 保存 client_id: 


bool smi_send_getaddr_skt (SMIQ *sqp, struct client_id *client, 
void **addr) 
{ 
SMIQ_SKT *p = (SMIQ_SKT *)sqp; 


if (p->sq_entity == SMI_SERVER) 
p->sq_client = *client; 
*addr = p->sq msg; 
return true; 
} 


smi_send_release_skt 写 消息 (用 2.9 节 的 writeall): 如 果 消 息 来 自 服务 器 ， 就 
写 到 客户 端的 文件 描述 符 ， 或 者 如 果 消息 来 自 客户 端 ， 就 写 到 服务 器 的 套 接 字 文件 描述 符 : 


bool smi_send_release_skt (SMIQ “sqp) 
{ 
SMIQ_SKT *p = (SMIQ_SKT *)sqp; 
int fd; 


if (p->sq entity == SMI_SERVER) 
ec_negl( fd = p->sq_client.c_idi ) 
else 
ec_negl( fd = ssi_get_server_fd(p->sq_ssip) ) 
ec_negl( writeall(fd, p->sq msg, p->sa_msgsize) ) 
return true; 


EC_CLEANUP_BGN 
return false; 

EC_CLEANUP_END 

} 


对 于 服务 器 ， 通 过 服务 器 接收 消息 意味 着 必须 等 待 一 个 准备 好 的 文件 描述 符 ， 这 由 SSI 通 
过 ssi_wait_server 来 处 理 。 服 务 器 还 必须 保存 已 经 以 消息 的 client_id 部 分 准备 好 的 文 
件 描述 符 ， 这 样 调 用 者 (MRSS) 知道 如 何 响应 。 客 户 端 必须 要 作 的 就 是 调用 
ssi_get_server_fd 来 获得 服务 器 的 套 接 字 文 件 描述 符 : 


bool smi_receive_getaddr_skt (SMIQ *sqp, void **addr) 
{ 

SMIQ_SKT *p = (SMIQ_SKT *)sqp; 

ssize_t /*nremain,*/ nread; 

int fd; 

*addr = p->sa_msg; 

while (true) ( 

if (p->sq_entity == SMI_SERVER) 
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ec_negl( fd = ssi_wait_server(p->sq_ssip) ) 
else 
ec_negi( fa = ssi_get_server_fd(p->sa_ssip) ) 
ec_negl( nread = readall(fd, p->sq msg, p->sa_msgsize) ) 
if (nread == 0) { 
if (p->sq_entity == SMI_SERVER) { 
ec_false( ssi_close_fd(p->sq_ssip, fd) 
continue; 
} 
else { 
errno = ENOMSG; 
EC_FAIL 
} 
} 
else 
break; 
if (p->sq_entity == SMI_SERVER) 
p->sq_msg->smi_client.c_idl = fd; 
return true; 


EC_CLEANUP_BGN 
return false; 

EC_CLEANUP_END 

} 


最 后 一 个 函数 实际 上 没有 任何 工作 可 做 : 


bool smi_receive_release_skc(SMIQ *sqp) 


{ 
return true; 
} 


通过 以 上 SMI 实 现 ， 第 7 章 的 所 有 发 送 消息 的 例子 就 都 可 以 工作 在 套 接 字 上 了 。 在 7.15 节 
中 已 经 对 比 了 它 与 其 他 IPC 方 法 之 间 的 性 能 。 

注意 : 在 设计 用 于 一 台 机 器 中 的 IPC 的 SMI 的 例子 里 ， 使 用 的 都 是 一 般 的 服务 器 名 字 。 这 
意味 着 当 名 字 传递 给 ssi_open 了 时， 这 个 名 字 被 看 作 在 AF_UNIX 域 内 。 尽 管 名 字 必 须 以 两 条 
斜 杠 开始 ， 这 样 SMI 的 套 接 字 实现 才 会 工作 ， 但 是 你 仍然 可 以 同样 简单 地 在 机 器 之 间 的 
AF_INET 消 息 发 送 中 使 用 SMI 接 口 。 


8.6 无 连接 套 接 字 
目前 为 止 ， 所 有 的 例子 以 及 SSI 实 现 使 用 的 都 是 SOCK_STREAM 类 型 的 有 连接 套 接 字 。 一 
台 服 务 器 调用 1isten 和 accept， 一 台 或 一 台 以 上 的 客户 机 连接 到 服务 器 。 连 接 一 直 处 于 打 


开 状 态 ， 直 到 有 一 方 关闭 了 这 条 连接 。 

相反 ， 无 连接 套 接 字 不 需要 使 用 连接 ， 所 以 就 不 调用 1isten 和 accept。 发 送 者 指明 它 
要 发 送 的 地 址 。 接 收 者 指明 它 要 接收 的 地 址 ， 或 者 可 以 从 任何 地 址 接收 并 被 告知 发 送 者 的 地 
址 。 接 收 者 总 是 必须 绑 定 到 一 个 外 部 名 字 ， 这 是 发 送 者 可 以 到 达 它 们 的 唯一 方式 。 这样， 无 
连接 套 接 字 比 有 连接 套 接 字 更 加 对 称 ; 它们 之 间 可 能 有 客户 机 /服务 器 的 关系 ， 但 有 时 认为 它 


们 之 间 是 对 等 关系 更 有 用 。 


8.6.1 关于 数据 报 
无 连接 通信 使 用 数据 报 (datagram )， 数 据 报 是 包含 目标 地 址 的 独立 的 数据 块 。 数 据 报 不 
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保持 一 定 的 顺序 ， 也 不 保证 它们 同时 到 达 。 相反，SOCK_STREAM 必 须 保证 顺序 和 到 达 时 间 。 
可 以 把 数据 报 想象 为 邮件 或 者 电子 邮件 ， 把 SOCK_STREAM 想 象 为 打 电话 。 

在 许多 应 用 中 ， 顺 序 和 到 达 时 间 并 不 重要 。 例 如 ， 假 设 应 用 是 为 了 预定 图 书馆 图 书 。 在 屏 
莫 上 有 一 个 表单 ， 当 提交 表单 时 ， 向 图 书馆 的 服务 器 发 送 一 个 数据 报 ， 服 务 器 也 给 出 了 确认 的 
响应 。 如 果 一 个 预定 请 求 比 另 一 个 提前 了 一 两 秒 钟 到达 ， 那 么 数据 报 的 重新 排序 就 有 可 能 会 带 
来 不 公平 。 但 是 ， 由 于 订阅 人 之 间 意 识 不 到 其 他 人 的 行为 ， 所 以 不 会 出 现 抱 忽 的 情况 。 在 极 少 
数 情况 下 ， 数 据 报 可 能 根本 没有 到 达 ， 订 阅 人 得 不 到 确认 ， 只 能 重新 发 送 表单 。 所 以 ， 在 这 种 
应 用 中 ， 与 只 是 为 了 订阅 图 书 而 建立 一 条 连接 然后 又 
立即 断 开 连 接 相 比 ， 数 据 报 要 高 效 得 多 。 另 一 方面 ， 
如 果 订 阅 人 想 交 互 式 地 浏览 一 会 儿 书目 ， 那 么 建立 连 
接 恐 怕 是 最 合适 的 选择 。 

图 8-4 显 示 了 两 个 对 等 实体 之 间 互相 发 送 数据 报 
到 套 接 字 的 情况 。 与 图 8-1 (显示 的 是 有 连接 套 接 字 ) 图 84 对 等 实体 发 送 数 据 报 

对 比 一 下 。 用 于 俩 听 和 接收 的 符号 不 见 了 ， 但 是 两 边 的 套 接 宇都 绑 定 了 名 字 ， 而 不 只 是 对 服 
务 器 套 接 宇 进行 了 绑 定 。 


8.6.2 ”sendto 和 recvfrom 系 统 调用 


在 所 有 前 面 的 套 接 字 例子 中 ， 使 用 的 都 是 write (或 writeall) 来 向 套 接 字 发 送 数据 ， 
因为 拥有 文件 描述 符 来 代表 进行 写 操作 的 连接 端点 ， 所 以 这 样 做 是 有 效 的 。 但 是 ， 如 果 套 接 
字 是 无 连接 的 ， 对 自己 的 套 接 来 说 ， 就 只 有 一 个 文件 描述 符 ; 需要 将 目标 指定 为 套 接 字 地 址 。 
所 以 ，write 就 不 再 奏效 了 。 我 们 需要 带 有 套 接 字 地 址 的 sendto 系 统 调用 : 


sendto 一 一 向 套 接 字 发 送 消息 


#include <sys/socket .h> 








ssize_t sendto( 
int socket_fd, socket file descriptor */ 
const void *message, message to send */ 
size_t length, * length of message */ 
int flags, flags */ 
const struct sockaddr *sa, target address */ 
socklen_t sa_len length of target address */ 


); 
/* Returns number of bytes sent or -1 on error (sets errno) */ 





socket_fd 参 数 是 发 送 者 的 套 接 字 ; 接收 者 是 用 sa 参数 和 sa_1len 参 数 来 指定 的 。 
sendto 的 成 功 返 回 并 不 意味 着 报 文 已 经 成 功 到 达 ， 只 是 说 明 本 地 没有 检测 到 错误 。 

你 的 实现 中 可 能 定义 了 一 些 标志 ， 但 唯一 重要 的 常用 标志 是 MSG_00B， 它 是 用 来 发 送 带 
外 (紧急 ) 数据 的 ; 见 8.7 节 。 

对 于 无 连接 套 接 字 ，1length 个 字 节 长 度 的 消息 被 认为 是 一 个 不 能 分 割 的 数据 报 。 如 果 套 
接 字 通 道 已 满 ， 那 么 sendto 通 常会 阻塞 ， 直 到 所 有 的 消息 适合 发 送 为 止 ; 如 果 设置 了 
0_NONBLOCK 标 志 并 且 有 一 个 消息 不 适合 发 送 ， 则 都 不 发 送 ， 返 回 -1， 并 将 errno 设 置 为 
EAGAIN 或 EWOULDBLOCK。 

你 也 可 以 在 有 连接 套 接 字 中 使 用 sendto， 但 在 那 种 情况 下 ， 目 标 地 址 就 被 忽略 了 ,输出 
发 送 给 sock_fd 套 接 字 ， 和 write 用 法 差不多 。 与 write 相 比 的 优点 在 于 你 可 以 指定 标志 。 
但 是 ， 如 果 这 就 是 你 想 要 的 ， 那 么 还 有 更 直接 的 方式 ， 就 是 使 用 send ( 见 8.9.1 节 )。 
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现在 看 一 个 例子 代码 ， 它 完成 了 图 8-4 所 示 的 功能 ， 不 过 增加 了 双方 读 取 进入 数据 的 功能 。 
对 等 实体 2 取得 报 文 ， 进 行 一 点 点 修改 并 将 它 发 送 给 对 等 实体 1。 对 等 实体 1 将 4 份 报 文 放 在 一 
起 发 送 给 对 等 实体 2， 并 显示 响应 。 注 意 ， 与 有 连接 套 接 字 例子 不 同 的 是 ， 对 等 双方 都 作 绑 定 
bind， 都 不 调用 Listen、accept 或 connect。 


#define SOCKETNAME1 *SktOne* 
#define SOCKETNAME2 "SktTwo" 


#define MSG_SIZE 100 


int main (void) 


£ 
struct sockaddr_un sal, sa2; 


strcpy (sal. sun_path, SOCKETNAME1) ; 
sal .sun_family = AF_UNIX; 
strepy(sa2.sun_path, SOCKETNAME2) ; 
sa2.sun_family = AF_UNIX; 
(void) unlink (SOCKETNAME1) ; 
(void) unlink (SOCKETNAME2) ; 
if (fork() == 0) ( /* Peer 1 */ 
int fd_skt; 
ssize_t nread; 
char msg[MSG_SIZE) ; 
int i; 


sleep(1); /* let peer 2 startup first */ 
ec_negl( fd_skt = socket (AF_UNIX, SOCK_DGRAM, 0) ) 
ec_negl( bind(fdskt, (struct sockaddr *)&sal, sizeof(sal)) ) 
for (i = 1; i <= 4; i++) { 
snprintf(msg, sizeof(msg), "Message #%d", i); 
ec_negl( sendto(fd_skt, msg, sizeof(msg), 0, 
(struct sockaddr *)&sa2, sizeof(sa2)) ) 
ec_negl( nread = read(fd_skt, msg, sizeof(msg)) ) 
if (nread != sizeof(msg)) { 
printf ("Peer 1 got short message\n"); 
break; 
) 
printf("Got \"%s\* back\n", msg); 
} 
ec_negl( close(fd_skt) ) 
exit (EXIT_SUCCESS) ; 
} 
else { /* Peer 2 */ 
int fa_skt; 
ssize_t nread; 
char msg[(MSG_SIZE] ; 


ec_negl( fd_skt = socket (AF_UNIX, SOCK_DGRAM, 0) ) 
ec_negl( bind(fd_skt, (struct sockaddr *)&sa2, sizeof(sa2)) ) 
ec_negl( nread = read(fdskt, msg, sizeof(msg)) ) 
while (true) ( 
if (nread != sizeof(msg)) { 
printf("Peer 2 got short message\n"); 
break; 
E 
msg[0] = 'm'; 
ec_negl( sendto(fd_skt, msg, sizeof (msg), 0, 
(struct sockaddr *)&sal, sizeof(sal)) ) 
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} 
ec_negl( close(fd_skt) ) 
exit (EXIT_SUCCESS) ; 

} 


EC_CLEANUP_BGN 

exit (EXIT_FAILURE) ; 
EC_CLEANUP_END 
fi 


将 两 个 进程 放置 在 同一 个 程序 中 不 太 标 准 ; 这 里 只 是 用 它 来 使 示例 简化 。 然而， 我们 必须 在 

子 进程 (对 等 实体 1) 的 开始 部 分 调用 sleep 来 让 其 停留 一 会 儿 好 让 对 等 实体 2 先行 。 这 种 次 

序 并 非 最 好 ， 但 对 现在 这 个 程序 来 讲 是 可 行 的 。 在 实际 的 应 用 中 ， 让 服务 器 在 客户 机 之 前 运 

行 起 来 通常 不 是 问题 。 如 果 有 问题 ， 那 么 正确 的 方法 是 让 两 者 同步 起 来 ， 见 9.2 节 。 
下 面 是 输出 : 


Got "message #1" back 
Got "message #2" back 
Got "message #3" back 
Got "message #4" back 


对 数据 报 而 言 ，read 实 际 上 不 是 好 的 选择 ， 因 为 ead 没 有 指出 是 谁 发 送 了 数据 。 这 对 
有 连接 套 接 字 不 是 什么 问题 ， 因 为 从 accept 返 回 后 都 提供 了 一 个 独立 的 文件 描述 符 (每 个 客 
户 端 一 个 )， 使 用 该 文件 描述 符 既 可 以 读 也 可 以 写 。 在 刚才 给 出 的 例子 中 ， 对 等 实体 2 只 是 假 
定 它 应 该 sendto 实 体 1， 但 是 ， 总 的 来 讲 ， 应 用 远 比 这 要 复杂 。 

毫 无 疑问 ， 有 一 个 与 sendto 相 对 的 函数 ， 称 为 recvfrom: 





recvfrom 一 一 从 套 接 字 接 收 消息 


#include <sys/socket .h> 














ssize_t recvfrom( 
int socket_fd, /* socket file descriptor */ 


void *buffer, /* buffer for received message */ 
size_t length, /* length of buffer */ 

int flags, /* flags */ 

struct sockaddr *sa, /* address of sender */ 
socklen_t *sa_len /* address length */ 


ve 
/* Returns number of bytes received, 0, or -1 on error (sets errno) */ 


recvfrom 的 前 三 个 参数 类 似 于 read 的 参数 。 另 外 ， 它 还 有 一 个 flags 参 数 和 两 个 关于 
接收 者 套 接 字 地 址 的 参数 。 在 调用 之 前 ， 必 须 设置 sa 使 其 具有 足够 大 的 空间 能 容纳 发 送 者 套 
接 字 地 址 ， 然 后 设置 sa_len 为 该 空间 的 大 小 。 在 返回 上 ,设置 sa_len 为 实际 的 地 址 大 小 。 
然后 ， 需 要 的 话 ， 可 以 将 sa 和 sa_len 直 接 传送 给 sendto 来 接收 响应 。 

像 sendto 一 样 ，recvfrom 总 是 返回 无 连接 套 接 字 的 完整 消息 。 如 果 0_NONBLOCK 标 识 
被 清除 了 ， 那 么 它 就 等 待 一 条 消息 ， 如 果 设 置 了 ， 就 返回 - 1 并 设置 errno 为 EAGAIN 或 者 
EWOULDBLOCK. 

如 果 想 知道 源 地 址 ， 你 可 以 使 用 recvfrom 得 到 有 连接 套 接 字 。 但 这 个 地 址 没有 太 多 的 
作用 ， 正 如 前 面 解释 的 那样 ， 因 为 这 个 地 址 会 在 sendto 调 用 中 被 忽略 。 如 果 你 拥有 套 接 字 地 
址 的 文件 描述 符 的话 ， 那 么 得 到 其 套 接 字 地 址 的 另 一 个 方法 就 是 调用 getsockname (I 
8.9.2 节 )。 

在 使 用 recvfrom 时 ， 有 三 个 常用 的 标志 可 供 使 用 : 
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MSG_OOB 如 果 有 带 外 数据 的 话 ， 则 接收 带 外 数据 ; 见 8.7 节 。 

MSG_PEEK 返回 报 文 ， 但 不 读 该 报 文 ， 而 是 留 给 下 一 次 read、recvfrom 或 其 他 输入 操 作 。 

MSG_WAITALL ”只 对 有 连接 套 接 字 有 效 ， 让 recvfrom 阻 塞 直 至 整个 请 求 的 长 度 可 用 ， 
除非 也 设置 了 MSG_PEEK 或 者 该 调用 被 信号 、 连 接 终止 或 错误 所 中 止 。 因 为 消息 总 是 不 可 分 
割 的 ， 所 以 对 无 连接 套 接 字 没 有 作用 。 

下 面 是 重 写 的 示例 代码 ， 利 用 了 recvfrom 函 数 ， 同 时 有 多 个 对 等 实体 发 送 给 相同 的 套 


接 字 ， 所 以 它 是 客户 机 /服务 器 布 





#define SOCKETNAME_SERVER *SktOne* 
#define SOCKETNAME_CLIENT "SktTwo* 


static struct sockaddr_un sa_server; 


#define MSG_SIZE 100 


static void run_client(int nclient) 


t 


struct sockaddr_un sa_client; 
int fdiskt; 

ssize_t nrecv; 

char msg{MSG_SIZE] ; 

int i; 


if (fork() == 0) { /* client */ 


} 


sleep(1); /* let server startup first */ 
ec_neg1( fd_skt = socket(AF_UNIX, SOCK_DGRAM, 0) ) 
snprintf (sa_client.sun_path, sizeof(sa_client.sun_path), 
"gs-%d", SOCKETNAME_CLIENT, nclient); 
(void) unlink (sa_client .sun_path) ; 
sa_client.sun_family = AF_UNIX; 
ec_negi( bind(fd_skt, (struct sockaddr *)&sa_client, 
sizeof(sa_client)) ) 
for (i = 1; i <= 4; i++) { 
snprintf (msg, sizeof(msg), "Message #%d", i); 
ec_neg1( sendto(fd_skt, msg, sizeof (msg), 0, 
(struct sockaddr *)&sa_server, sizeof(sa_server)) ) 
ec_negl( nrecv = read(fd_skt, msg, sizeof (msg)) ) 
if (nrecv != sizeof(msg)) { 
printf ("client got short message\n"); 
break; 








) 

printf("Got \"%s\" back\n", msg); 
} 
ec_negl( close(fd_skt) 
exit (EXIT_SUCCESS) ; 


return; 
EC_CLEANUP_BGN 
exit (EXIT_FAILURE) ; 
EC_CLEANUP_END 


} 


static void run_server (void) 


{ 


int fd_skt; 

ssize_t nrecv; 

char msg[MSG_SIZE] ; 

struct sockaddr_storage sa; 
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socklen_t sa_len; 


ec_negl( fd_skt = socket (AF_UNIX, SOCK_DGRAM, 0) ) 
ec_negi( bind(fd_skt, (struct sockaddr *)&sa_server, sizeof(sa_server)) ) 
while (true) { 
sa_len = sizeof (sa); 
ec_negl( nrecv = recvfrom(fd_skt, msg, sizeof(msg), 0, 
(struct sockaddr *)&sa, &sa_len) ) 
if (nrecv != sizeof(msg)) ( 
printf ("server got short message\n"); 
break; 
} 
msg[l0] = 'm'; 
ec_negl( sendto(fd_skt, msg, sizeof(msg), 0, 
(struct sockaddr *)&sa, sa_len) ) 
} 
ec_neg1( close(fa_akt) ) 
exit (EXIT_SUCCESS) ; 


EC_CLEANUP_BGN 


exit (EXIT_FAILURE) ; 


EC_CLEANUP_END 


} 


int 
{ 


) 


main(void) 
int nclient; 


strcpy(sa_server.sun_path, SOCKETNAME_SERVER) ; 

sa_server.sun_family = AF_UNIX; 

(void) unlink (SOCKETNAME_SERVER) 

for (nclient = 1; nclient <= 3; nclient++) 
run_client (nclient) ; 

run_server (); 

exit (EXIT_SUCCESS) ; 





在 这 个 新 的 例子 中 ， 只 有 服务 器 的 套 接 字 地 址 是 对 服务 器 和 客户 机 公开 的 。 客 户 机 套 接 
字 地 址 只 有 客户 机 知道 ; 服务 器 通过 调用 recvfrom 得 到 客户 机 套 接 字 地 址 。 这 里 将 read 调 
用 全 都 放 在 了 客户 端 中 ， 但 这 些 调用 同样 也 可 以 使 用 recvfrom。 因 为 示例 中 现在 有 三 个 客 
户 端 ， 所 以 可 以 有 更 多 的 输出 : 


Got 
Got 
Got 
Got 
Got 
Got 
Got 
Got 
Got 
Got 
Got 
Got 


"message #1" back 
message #2" back 
"message #3" back 
"message #4" back 
"message #1* back 
"message #2" back 
‘message #3" back 
message #4" back 
message #1" back 
«message #2" back 
"message #3" back 
‘message #4" back 


8.6.3 sendmsg 和 recvmsg 
sendto 和 recvfrom 有 几 个 使 用 相同 标志 和 相同 返回 值 的 变 体 ， 但 这 些 变 体 使 用 的 都 是 
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一 个 单独 的 msghdr 结 构 类 型 参数 ， 该 结构 参数 包含 了 套 接 字 地 址 和 消息 本 身 。 它 们 可 以 进行 
分 散 读 和 集中 写 ， 就 像 readv 和 writev 一 样 ， 这 两 个 调用 在 前 面 的 2.15 节 中 讲 到 过 。 


sendmsg 一 一 使 用 msghdr 结 构 向 套 接 字 发 送 消息 
#include <sys/socket .h> 


ssize_t sendmsg( 
int socket_fd, /* socket file descriptor */ 
const struct msghdr *message, /* message */ 
int flags /* flags */ 

); 

/* Returns number of bytes sent or -1 on error (sets errno) */ 


recvmsg 一 一 使 用 msghdr 结 构 从 套 接 字 接 收 消息 
#include <sys/socket.h> 


ssize_t recvmsg( 
int socket_fd, /* socket file descriptor */ 
struct msghdr *message, /* message */ 
int flags /* flags */ 


) 
/* Returns number of bytes received, 0, or -1 on error (sets errno) */ 


struct msghdr 一 一 sendmsg 和 recvmsg 的 结构 


struct msghdr ( 
void *msg_name; * optional address */ 
socklen_t msg_namelen; * size of address */ 
struct iovec *msg_iov; scatter/gather array */ 
int msg_iovlen; number of elements in msg_iov */ 
void *msg_control; ancillary data */ 
socklen_t msg_controllen; /* ancillary data buffer len */ 
int msg_flags; /* flags on received message */ 





对 于 sendmsg， 套 接 字 地 址 是 由 错误 命名 的 msg_name 成 员 变 量 指出 的 ， 套 接 字 地 址 长 度 
是 由 msg_namelen 指 出 的 。 要 发 送 的 数据 是 由 msg_iov 成 员 变 量 指出 的 ， 该 成 员 变 量 指向 一 
个 iovec 结 构 ， 用 法 和 在 writev 中 一 样 。msg_iovlen 成 员 变量 指 的 是 msg_iov 数 组 中 成 员 
的 个 数 。 在 2.15 节 中 讲 过 这 些 成 员 的 使 用 。msg_f1ags 成 员 变 量 在 此 用 不 上 ， 被 忽略 。 

对 于 recvmsg， 可 以 将 nsg_name 设 置 为 NULL 或 者 是 用 于 接收 发 送 者 套 接 字 地 址 的 缓冲 
区 ， 缓 冲 区 的 长 度 为 msg_namelen， 这 些 和 recvfrom 有 些 类 似 。 当 recvmsg 返 回 时 ， 
msg_namelen 会 被 转换 为 实际 的 套 接 字 地 址 长 度 。 成 员 变 量 msg_iov 和 msg_iovlen 用 于 
readv。 在 返回 的 msg_flags 成 员 变量 中 ， 有 一 个 可 以 设置 的 常用 标志 : MSG_TRUNC， 意 
思 是 报 文 太 长 ， 超 出 了 所 提供 的 缓冲 区 长 度 。 

套 接 字 成 员 变量 msg_name 和 msg_namelen 用 于 无 连接 套 接 字 ; 有 连接 套 接 字 用 不 上 它 
们 ， 忽 略 不 用 。 

还 有 两 个 成 员 变量 ， 即 msg_contro1 和 msg_controllen， 还 没有 解释 。 它 们 用 于 与 访问 
权限 有 关 的 辅助 数据 。 这 里 不 对 其 进行 解释 ， 但 是 可 以 阅读 [SUS2002] 或 者 所 使 用 的 系统 文档 。 

下 面 是 用 recvmsg 和 sendmsg 对 前 一 节 中 run_server 函 数 的 重 写 : 

static void run_server (void) 

f int fd_skt; 


ssize_t nrecv; 
char msg{MSG_SIZE] ; 
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struct sockaddr_storage sa; 


struct msghdr m; 
struct iovec v; 


ec_negl( fd_skt = socket (AF_UNIX, SOCK_DGRAM, 0) ) 
ec_negl( bind(fd_skt, (struct sockaddr *)&sa_server, sizeof(sa_server)) } 
while (true) { 
memset (&m, 0, sizeof (m)); 
m.msg_name = &sa; 
m.msg_namelen = sizeof (sa); 
v.iov_base = msg; 
v.iov_len = sizeof (msg); 
m.msg_iov = & 
m.msg_iovlen 
ec_negl( nrec ecvmsg(fd_skt, &m, 0) ) 
if (nrecv != sizeof (msg)) { 
printf (*server got short message\n"); 
break; 





} 
((char *)m.msg_iov->iov_base) [0] = 'm'; 
ec_negl( sendmsg(fd_skt, &m, 0) ) 

) 

ec_negl( close(fdiskt) ) 

exit (EXIT_SUCCESS) ; 


EC_CLEANUP_BGN 
exit (EXIT_FAILURE) ; 
EC_CLEANUP_END 
7 
额外 的 工作 就 是 要 设置 msghdr 结 构 ， 但 是 recvmsg 和 sendmsg 调 用 非常 简单 。 想 象 一 
下 应 用 程序 要 向 不 同 的 地 址 发 送 大 量 报 文 ， 就 可 以 看 出 将 地 址 放 在 同样 的 结构 中 作为 报 文 数 


据 的 一 部 分 好 处 了 。 


8.6.4 采用 无 连接 套 接 字 的 连接 
通常 客户 端 使 用 connect ( 见 8.1.2 节 ) 来 连接 服务 器 套 接 字 ， 但 是 利用 无 连接 套 接 字 为 
不 带 套 接 字 地 址 参数 的 send 和 recv 建 立 默 认 地 址 ， 也 是 可 行 的 。 这 两 个 系统 调用 的 详细 讲 


解 在 8.9.1 节 中 。 
使 用 NULL 套 接 字 地 址 参数 来 调用 connect 就 能 删除 默认 地 址 。 


8.7 带 外 数据 


偶而 要 在 套 接 字 连 接 上 要 发 送 一 个 紧急 的 消息 。 如 果 它 是 内 能 式 发 送 ， 那 么 只 有 等 到 先 
于 它 的 消息 被 处 理 后 才能 被 读 取 ， 因 而 可 以 通过 发 送 带 外 消息 的 方法 来 解决 。 接 收 者 也 必须 
能 接收 带 外 消息 。 

为 了 发 送 带 外 消息 ， 要 用 sendto、sendmsg 或 send 来 设置 MSG_00B 标 志 。 

接收 者 通过 称 为 文件 描述 符 的 “error” 设 置 作 为 第 4 个 参数 传递 给 select (8.1.3 节 ) 
来 发 现 带 外 消息 。 然 后 通过 在 recvfrom、recvmsg 或 recv 的 一 个 调用 中 设置 MSG_00B 
标志 来 获得 消息 。 或 者 通过 在 套 接 字 文件 描述 符 上 设置 0_NONBLOCK 标 志和 为 接收 调用 设 
置 MSG_00B 标 志 ， 从 而 调用 一 个 接收 函数 ， 以 在 要 接收 一 般 数据 时 ， 每 次 都 检查 带 外 
消息 。 


394 HEE 





如 果 设 置 了 S0_00BINLINE 选 项 (8.3 节 )， 带 外 数据 可 以 内 置 于 其 他 数据 中 。 协 议 可 以 
放 在 带 有 带 外 标志 的 带 外 数据 之 前 ， 当 读数 据 时 ， 忽 略 带 外 标志 ， 但 可 以 通过 一 个 调用 检测 
到 该 标志 的 存在 ， 这 个 调用 只 有 这 个 功能 : 


sockatmark 一 一 测试 带 外 标志 是 否 存在 


#include <sys/socket.h> 


int sockatmark( 
int socket_fd /* socket file descriptor */ 


) 
/* Returns 1 if at mark, 0 if not, or -1 on error (sets errno) */ 





sockatmark 的 问题 是 ， 如 果 因 为 套 接 字 为 空 从 而 使 其 返回 值 是 9?， 而 带 外 数据 可 能 会 在 
对 sockatmark 的 调用 之 后 但 在 下 一 次 接收 操作 之 前 到 达 。 当 接收 数据 时 ， 由 于 忽略 了 带 外 
标志 ， 所 以 会 丢失 带 外 标志 。 避 免 这 种 情况 的 方法 就 是 在 调用 sockatmark 之 前 ， 先 准备 好 
接收 数据 ， 例 如 用 select 调 用 。 这 样 sockatmark 的 返回 值 0 就 明确 意味 着 有 数据 ， 但 带 外 
标志 不 会 先 于 接收 的 数据 。 

当 带 外 数据 到 达 时 ， 也 可 以 安排 获得 SIGURG 信 号 。 为 了 达到 这 个 目的 ， 调 用 带 有 
F_SETOWN 操 作 的 fcnt1 来 设置 可 以 获得 信号 的 进程 或 进程 组 。 更 多 细节 ， 参 见 [SUS2002] 或 
系统 文档 。 


8.8 网 络 数据 库 函 数 


这 些 网 络 数据 库 函 数 提供 了 有 关 主 机 、 网 络 、 协 议和 服务 的 信息 。 本 书 已 在 8.2.6 节 介绍 
了 此 类 函数 中 最 重要 的 函数 getaddrinfo。 另 外 一 个 常用 函数 是 8.2.7 节 中 介绍 的 
gethostname。 现 在 按 这 些 函 数 所 处 理 的 信息 类 别 对 其 进行 分 类 讲解 。 


8.8.1 主机 函数 
扫描 主 机 数据 库 的 函数 有 三 个 : 
sethostent 一 一 开始 主机 数据 库 扫描 


#include <netdb.h> 
void sethostent ( 


int stayopen /* leave connection open? */ 
) 


gethostent 一 一 得 到 下 一 个 主机 数据 库 人 口 


#include <netdb.h> 


struct hostent *gethostent (void) ; 
/* Returns next entry or NULL on end of database (errno not defined) */ 


endhostent 一 一 结束 主机 数据 库 扫 描 


#include <netdb.h> 


void endhostent (void); 
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struct hostent 一 一 主机 数据 库 函 数 的 结构 


struct hostent { 
char *h_name; /* official host name */ 
char **h_aliases; /* array of alternative host names */ 


int h_addrtype /* address family (not type) */ 
int h_length; /* length of each address */ 
char **h_addr_list; /* array of pointers to network addresses */ 





通过 循环 调用 gethostent 可 以 扫描 到 所 有 可 知 的 主机 名 。 用 sethostent 开 始 扫描 ， 
并 设置 参数 来 指示 所 连 的 主机 是 否 仍 保持 着 打开 状态 ， 或 者 指示 在 每 次 调用 它 时 gethostent 
是 否 都 应 该 打开 和 关闭 它 。 最 后 调用 endhostent。 这 看 起 来 发 生 了 许多 事件 ， 实 际 上 所 有 
这 些 函 数 可 能 只 是 扫描 本 机 的 /etc/hosts 文 件 。 

在 hostent 结 构 中 有 两 个 数组 ， 都 是 以 NULL 指针 结束 的 。 一 个 是 主机 别名 的 数组 
h_aliases， 另 一 个 是 网 络 地 址 指针 数组 h_addr_1ist。 对 于 AF_INET 来 说 ， 这 些 地 址 是 
以 32 位 二 进 制 网 络 字 节 序 存储 的 IP 地 址 。 因 此 可 以 使 用 ntoh1 (8.1.4 节 ) 将 它们 转换 成 本 地 
字 节 序 ， 或 用 inet_ntoa (8.2.3 节 ) 或 inet_ntop (8.9.5 节 ) 将 它们 转换 成 点 串 。 

示例 : 

static void hostdb(void) 

{ 


struct hostent *h; 


sethostent (true) ; 
while ((h = gethostent()) != NULL) 
display_hostent (h) ; 
endhostent (); 
} 


static void display_hostent (struct hostent *h) 
{ 


int i; 

printf ("name: %s; type: td; len: %d\n", h->h_name, h->h_addrtype, 
h->h_length) ; 

for (i = 0; h->h_aliases[i] != NULL; i++) 


printf (*\t%s\n", h->h_aliases[i]); 
if (h->h_addrtype == AF_INET) { 
for (i = 0; h->h_addr_list[i] != NULL; i++) 
printf (*\tts\n", 
imet_ntoa(*((struct in_addr *)h->h_addr_list[i])))7 
} 
ti 


一 个 称 为 hostdb 的 主 程序 (这 里 没有 给 出 ) 的 输出 为 : 


name: localhost; type: 2; len: 4 
127.0.0.1 

name: sol; type: 2; len: 4 
loghost 
192.168.0.10 

name: bsd; type: 2; len: 4 
192.168.0.15 

name: suse2; type: 2; len: 4 
suse2 .MSHOME 
192.168.0.19 


作为 比较 ， 在 同一 个 系统 中 的 文件 /etc/hosts 的 内 容 如 下 : 
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127.0.0.1 localhost 
192.168.0.10 ~ sol loghost 
192.168.0.15 bsd 

192.168.0.19 suse2  suse2 .MSHOME 


为 了 通过 名 字 查 询 主 机 ， 可 以 调用 gethostbyname。 不 仅 可 以 通过 /etc/hosts 文 件 来 得 
到 主机 名 ， 在 有 访问 权限 的 情况 下 也 可 以 用 DNS 来 得 到 主机 名 。 实 际 上 在 getaddrinfo 出 
现 以 前 ， 这 是 得 到 网 络 地 址 的 基本 方法 ， 它 比 getaddrinfo 用 得 多 ， 因 为 它 是 一 个 老 方法 ， 
几乎 每 个 人 都 会 用 它 做 点 事 。 但 与 getaddrinfo 不 同 ， 用 gethostbyname 所 得 到 的 是 IP 地 
址 ， 同 时 还 必须 自己 建立 sockataddr_in 结 构 ， 就 像 8.2.3 节 所 做 的 那样 。 另 外 
gethostbyname 不 能 处 理 IPv6 地 址 。 下 面 是 对 照 表 : 


gethostbyname 一 一 通过 名 字 查 询 主机 
#include <netdb.h> 


struct hostent *gethostbyname( 
const char *nodename, /* node name */ 


) 
/* Returns pointer to hostent or NULL on error (sets h_errno) */ 





对 照 表 的 末 行 注释 并 没有 印 错 ， 这 个 函数 设置 的 确实 是 h_errno， 不 是 errno， 它 用 的 
代码 也 不 是 error 代 码 。( 因为 本 书 没有 使 用 这 个 函数 ， 所 以 就 没 为 h_errno 编 写 “ec” 宏 ,) 
示例 (display_hostent 来 自前 一 个 示例 ): 


static void gethostbyname_ex(void) 
{ 
struct hostent *h; 


if ((h = gethostbyname(*www.yahoo.com")) == NULL) { 
if (h_errno == HOST_NOT_FOUND) 
printf ("host not found\n"); 
else 
printf(*h_errno = %d\n", h_errno); 
} 
else 
display_hostent (h) ; 
} 


下 面 是 调用 该 函数 所 得 到 的 输出 : 


name: www.yahoo.akadns.net; type: 2; len: 4 


你 可 能 想 要 与 8.2.6 节 所 给 的 输出 作 一 比较 ， 那 里 利用 getaddrinfo 做 了 同样 的 事 。 
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与 gethostbyname 相 对 的 是 gethostbyaddr ， 它 利用 主机 数据 库 (或 许 是 DNS) 把 
了 P 地 址 转换 成 了 名 字 : 


gethostbyaddr 一 一 通过 地 址 查询 主机 


#include <netdb.h> 


struct hostent *gethostbyaddr ( 


const void ‘addr, /* IP address */ 
socklen_t len, /* length of address */ 
int family /* family (called “type” in SUS) */ 


ve 
/* Returns pointer to hostent or NULL on error (sets h_errno) */ 





示例 (inet R8.2.34%): 


static void gethostbyaddr_ex(void) 
{ 

struct hostent *h; 

in_addr_t a; 


ec_negl( a = inet_addr ("66.218.71.94") ) 
if ((h = gethostbyaddr(&a, sizeof(a), AF_INET)) 
if (h_errno == HOST_NOT_FOUND) 
printf ("address not found\n"); 
else 
printf (*h_errno = %d\n", h_errno); 





} 
else 
display_hostent (h) ; 

return; 
EC_CLEANUP_BGN 

EC_FLUSH ("gethostbyaddr_ex") 
EC_CLEANUP_END 
) 


输出 : 


name: wi5.www.scd.yahoo.com; type: 2; len: 4 
66.218.71.94 


当 得 到 www.yahoo.com 的 IP 地 址 时 ， 列 表 中 显示 的 是 66.218.71.94， 但 当 请 求 IP 的 名 字 时 ， 
得 到 的 是 w15.www.scd.yahoo.com。 这 是 因为 DNS 起 了 作用 ， 显 然 Yahoo 有 许多 服务 器 ， 当 然 
它 也 必须 有 那么 多 。 

gethostbyaddr 和 gethostbyname 一 样 过 时 了 。 相 应 于 getaddrinfo (8.2.6 节 ) 的 
新 函数 是 getnameinfo: 


getnameinfo 一 一 得 到 名 字 信息 


#include <sys/socket .h> 
#include <netdb.h> 


int getnameinfo( 
const struct sockaddr *sa, socket address */ 
socklen_t sa_len, socket-address length */ 
char *nodename, node name */ 
socklen_t nodelen, node-name buffer length */ 
char *servname, service name */ 
socklen_t servien, service-name buffer length */ 
unsigned flags flags */ 


ve 
/* Returns 0 on success or error number on error */ 
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getnameinfo 取 整个 套 接 字 地 址 作 参 数 ， 不 仅 只 有 IP 地 址 ， 因 为 它 还 可 能 会 与 许多 不 同 
的 族 一 起 工作 。 最 重要 的 是 能 与 IPv6 地 址 一 起 工作 ， 而 gethostbyname 就 不 行 了 。 答 案 在 
于 两 个 缓冲 区 : 一 个 是 存 节点 (或 主机 ) 名 的 nodename， 长 度 为 nodelen; 一 个 是 存 服务 
器 名 的 servname ， 长 度 为 servlen。 如 果 缓 促 区 指针 为 NULL 或 它 的 长 度 为 9， 那 么 就 得 不 
到 返回 信息 。 

和 getaddrinfo 一 样 ，getnameinfo 返 回 的 错误 代码 不 是 errno 代 码 ， 而 是 特别 的 
“EAI” 码 ， 如 果 需 要 ， 可 以 在 其 上 使 用 函数 gai_strerror (8.2.6 节 )， 或 利用 只 为 这 两 个 
函数 提供 的 ec_ai 宏 。 

可 以 用 各 种 标志 在 一 起 进行 或 操作 来 控制 getnameinfo 的 返回 : 

NI_NOFQDN 返回 的 只 是 本 地 机 器 的 节点 名 ， 而 不 是 完全 意义 的 域名 。 

NI_NUMERICHOST 返回 的 是 地 址 的 数字 形式 ( 点 分 法 表示 IPv4， 冒 号 记 法 表示 IPv6) 
而 不 是 名 字 。 

NI_NAMEREQD 如 果 没 有 找到 主机 名 就 返回 错误 。 在 这 种 情况 下 通常 返回 数值 形式 。 

NI_NUMERICSERV 返回 端口 号 (字符 串 型 ) 而 不 是 服务 名 。 

NI_DGRAM 查找 SOCK_DGRAM (UDP) 服 务 。 通 常 查找 SOCK_STREAM (TCP) 服务 。 

示例 : 

static void getnameinfo_ex(void) 

{ 


struct sockaddr_in sa; 
char nodename(200), servname[200] ; 


sa.sin_family = AF_INET; 

sa.sin_port = htons(80); 

sa.sin_addr.s_addr = inet_addr(*216.109.125.70"); 

ec_ai( getnameinfo((struct sockaddr *)&sa, sizeof(sa), nodename, 
sizeof (nodename), servname, sizeof(servname), 0) ) 

printf (*node: ts; service: %s\n", nodename, servname) ; 

return; 


EC_CLEANUP_BGN 

EC_FLUSH ( "getnameinfo_ex") 
EC_CLEANUP_END 
} 


输出 : 


node: w17.www.dcn.yahoo.com; service: http 


另 一 个 面向 主机 的 函数 是 : 
gethostid 一 一 得 到 本 地 主机 标识 符 


#include <unistd.h> 


long gethostid(void); 
/* Returns identifier (no error return) */ 





gethostid 看 起 来 可 以 返回 本 地 机 器 IP， 但 它 没有 必要 那样 做 。 要 求 它 做 的 就 是 返回 一 
个 唯一 的 标识 号 ， 是 否 起 作用 依赖 于 在 系统 起 动 时 是 否 设置 了 这 个 标识 号 。 这 里 提 及 以 免 偶 
而 会 与 其 他 有 用 的 函数 混淆 。 

还 有 一 个 提供 识别 系统 信息 的 函数 ， 与 网 络 没有 直接 的 联系 : 
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uname 一 一 得 到 关于 当前 系统 的 信息 
#include <sys/utsname.h> 


int uname( 
struct utsname *info /* returned info */ 


); 
/* Returns non-negative value on success or -1 on error (sets errno) */ 


struct utsname 一 一 uname 的 结构 


struct utsname { 
char sysname{); OS name */ 
char nodename[]; node name within network */ 
char release[]; release number (as string) */ 
char version(]; version number (as string) */ 
char machine[]; hardware type or computer model */ 





不 幸 的 是 ，utsname 结 构 9 的 成 员 没有 一 个 被 标准 化 ， 因 此 不 能 用 它们 来 控制 应 用 程序 
的 运行 。 也 就 是 说 用 测试 机 器 序列 号 来 看 看 是 否 运行 在 Intel CPU 上 可 能 不 错 ; 但 运行 在 CPU 
上 的 每 个 系统 都 把 字 串 格式 化 成 了 它 需要 的 形式 ， 因 此 “Intel” 或 “x86” 字 串 可 能 并 不 在 那 
里 。 你 所 能 做 的 就 是 使 用 字 串 进行 显示 ， 大 概 也 可 以 标注 性 能 测试 输出 。 自 然 ，uname 系 统 
调用 是 uname 命 令 的 本 质 。 示 例 (没有 选项 ): 


int main(void) 
{ 


struct utsname info; 


ec_negl( uname(&info) ) 
printf ("sysname = s\n", info.sysname) ; 
print£(*nodename = %s\n", info.nodename) ; 
printf ("release = s\n", info.release); 
printf ("version = %s\n*, info.version); 
printf ("machine = ts\n", info.machine) ; 
exit (EXIT_SUCCESS) ; 


EC_CLEANUP_BGN 

exit (EXIT_FAILURE) ; 
EC_CLEANUP_END 
} 


下 面 是 在 我 们 的 4 种 测试 系统 上 运行 的 结果 ; 也 许 你 能 认 出 其 中 的 一 种 形式 : 


sysname = SunOS 
nodename = sol 

release = 5.8 

version = Generic_108529-13 
machine = i86pc 


sysname = Darwin 

nodename = Marc-Rochkinds-Computer. local. 

release = 6.6 

version = Darwin Kernel Version 6.6: Thu May 1 21:48:54 PDT 2003; 
root :xnu/xnu-344 . 34. obj~1/RELEASE_PPC 

machine = Power Macintosh 


O 对 照 表 中 所 示 空 括号 不 是 合法 的 C 语 言 ， 只 是 一 种 思想 。 在 实现 时 要 分 配 所 需 空间 、 
O 输出 换行 以 适合 页 边界 。 
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sysname = FreeBSD ` 
nodename = bsd.MSHOME 

release = 4.6-RELEASE é 

version = FreeBSD 4.6-RELEASE #0: Tue Jun 


machine = i386 


sysname = Linux 
nodename = suse2 

release = 2.4.18-4GB 

version = #1 Wed Mar 27 13:57:05 UTC 2002 
machine = i686 


8.8.2 网 络 函 数 
本 类 函数 能 得 到 可 能 连接 到 本 地 机 器 的 网 络 信息 。 先 讲 三 个 像 扫 描 网 络 主机 那样 的 函数 


(例如 : gethostent): 


setnetent 一 一 开始 网 络 数据 库 扫描 
#include <netdb.h> 
void Setnetent ( 


int stayopen /* leave connection open? */ 
a 


getnetent 一 一 得 到 网 络 数据 库 入 口 


#include <netdb.h> 


struct netent *getnetent (void) ; 
/* Returns pointer to netent or NULL on end (errno not defined) */ 


endnetent 一 一 结束 网 络 数据 库 扫 描 
#include <netdb.h> 


void endnetent (void); 


struct netent 一 一 网 络 数据 库 函 数 的 结构 


struct netent ( 
char *n_name; official network name */ 
char **n_aliases; array of alternative network names */ 
int n_addrtype; address family (not type) */ 
uint32_t n_net; network number */ 


) 





示例 : 


static void netdb(void) 
{ 





struct netent 


setnetent (true) ; 
while ((n = getnetent()) != NULL) 
display_netent (n); 
endnetent (); 
} 


static void display_netent(struct netent *n) 
{ 


int i; 
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printf ("name: %s; type: $d; number: tlu\n*, n->n_name, n->n_addrtype, 
(unsigned long)n->n_net) ; 
for (i = 0; n->n_aliases[i] != NULL; i++) 
printf (*\ts\n", n->n_aliases{i}); 
} 


输出 为 : 


name: loopback; type: 2; number: 127 
name: arpanet; type: 2; number: 10 
arpa 
大 多 数 (但 并 非 所 有 的 ) 机 器 都 有 用 于 测试 的 loopback 网 络 。 运 行 上 述 示例 的 这 台 机 器 
(运行 在 Solaris 系 统 上 ) 也 有 一 个 与 Internet 的 连接 ， 在 历史 上 Internet 称 为 “arpanet” 网 。 记 
E, 所 显示 的 “type” 实 际 上 是 族 ， 它 的 输出 说 明 宏 AF_INET 被 定义 成 了 2。 
与 主机 数据 库 相 似 ， 有 些 函 数 能 通过 网 络 号 或 名 字 找 到 入 口 指针 : 





getnetbyname 一 一 通过 名 字 查 询 网 络 


#include <netdb.h> 















struct netent *getnetbyname( 
const char *name /* network name (to match n_name member) */ 






ve 
/* Returns pointer to netent or NULL if not found (errno not defined) */ 


getnetbyaddr 一 一 通过 网 络 号 查询 网 络 


#include <netdb.h> 
















struct netent *getnetbyaddr ( 
uint32_t net, /* network number (to match n_net member) */ 
int type /* family (to match n_addrtype member) */ 






Ve 
/* Returns pointer to netent or NULL if not found (errno not defined) */ 


8.8.3 协议 函数 
在 形式 上 ， 扫 描 协 议 数据 库 的 函数 如 下 : 


setprotoent 一 一 开始 协议 数据 库 扫 描 
#include <netdb.h> 
void setprotoent ( 


int stayopen /* leave connection open? */ 
ve 


getprotoent 一 一 得 到 协议 数据 库 人 口 
#include <netdb.h> 


struct protoent *getprotoent (void) ; 
/* Returns pointer to protoent or NULL on end (errno not defined) */ 


endprotoent 一 一 结束 协议 数据 库 扫 描 


#include <netdb.h> 


void endprotoent (void) ; 
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struct protoent 一 一 协议 数据 库 函 数 的 结构 


struct protoent { 


char *p_name; /* official protocol name */ 
char **p_aliasi /* array of alternative protocol names */ 
int p_proto; /* protocol number */ 





X; 





在 一 些 系统 上 ， 当 调用 setsockopt 或 getsockopt 时 ， 可 以 用 协议 号 表示 协议 层 ， 但 
这 并 不 标准 。 
以 下 程序 很 明显 : 


static void protodb(void) 


í 
struct protoent * 





setprotoent (true) ; 
while ((p = getprotoent()) != NULL) 
display_protoent (p) ; 
endprotoent () ; 
} 


static void display_protoent (struct protoent *p) 


{ 
int i; 


printf ("name: %s; number: %d\n", p->p_name, p->p-proto); 
for (i = 0; p->p_aliases(i] != NULL; i++) 
printf(*\tts\n", p->p_aliases(i]); 






但 输出 很 有 趣 ， 我 在 SuSE Linux 上 得 到 了 135 个 协议 ， 以 下 是 部 分 输出 : 


name: mobile; number: 55 
MOBILE 

name: tlsp; number: 56 
TLSP 

name: skip; number: 57 
SKIP 

name: ipv6-icmp; number: 58 
IPv6-ICMP 


ICMPV6 
icmpv6 
icmp6 

name: ipv6-nonxt; number: 59 
IPv6-NoNxt 

name: ipv6-opts; number: 60 
IPv6-Opts 

name: cftp; number: 62 
CPTP 

name: sat-expak; number: 64 
SAT-EXPAK 

name: kryptolan; number: 65 
KRYPTOLAN 
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有 两 个 更 有 预测 性 的 函数 来 显示 协议 集 : 
getprotobyname 一 一 通过 名 字 查 询 协议 


#include <netdb.h> 










struct protoent *getprotobyname( 
const char *name /* protocol name */ 






Me 
/* Returns pointer to protoent or NULL if not found (errno not defined) */ 








getprotobynumber 一 一 通过 协议 号 查询 协议 
#include <netdb.h> 


struct protoent *getprotobynumber ( 
int proto /* protocol number */ 


Returns pointer to protoent or NULL if not found (errno'not defined) */ 





8.8.4 服务 函数 
有 多 组 通过 名 字 和 数字 来 搜索 服务 的 函数 ， 它 们 扫描 本 地 系统 中 的 /etc/services 文 件 。 


setservent 一 一 开始 服务 数据 库 扫 描 
#include <netdb.h> 
void setservent ( 


), tat Stayopen /* leave connection open? */ 










getservent 一 一 得 到 服务 数据 库 入 口 


<netdb.h> 








#include 









struct servent *getservent (void) ; 
/* Returns pointer to servent or NULL on end (errno not defined) */ 


endservent 一 一 结束 服务 数据 库 扫 描 


#include <netdb.h> 








void endservent (void); 


struct servent 一 一 服务 数据 库 函 数 的 结构 


struct servent ( 











char *s_name; /* official service name */ 
char **s_aliases; /* array of alternative service names */ 
int s_port; /* port number */ 










char *s_proto; /* name of protocol for this service */ 





getservbyname 一 一 通过 名 字 查 询 服务 


#include <netdb.h> 











struct servent *getservbyname( 
const char ‘name, /* service name */ 
const char *proto /* protocol name */ 









ve 
/* Returns pointer to protoent or NULL if not found (errno not defined) */ 
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getservbyport 一 一 通过 端口 查询 服务 


#include <netdb.h> 


struct servent *getservbyport ( 

int port, /* port */ 

const char *proto /* protocol name */ 
ve 


/* Returns pointer to protoent or NULL if not found (errno not defined) */ 





最 后 一 个 此 类 示例 是 : 


static void servdb(void) 


{ 
struct servent *s; 


setservent (true) ; 
while ((s = getservent()) != NULL) 


display_servent (s); 
endservent (); 
} 


static void display_servent (struct servent *s) 
t 
int i; 
printf ("name: %s; port: td; protocol: %s\n", s->s_name, ntohs (s->s_port), 
8->s_proto); 
for (i = 0; s-> 
printf (*\t®s\n", s->s_: 


liases[i] != NULL; i++) 
liases[i]); 








} 
由 于 /etc/services 文 件 很 大 ， 所 以 输出 也 很 大 ， 以 下 是 一 部 分 : 


20; protoco: 
20; protoco: 
ftp; port: 21 ; protocol: tcp 
fsp; port: 21 ; protocol: udp 
ssh; port: 22 ; protocol: tcp 
ssh; port: 22 ; protocol: udp 
telnet; port: 23 ; protocol: tcp 
: telnet; port: 23 ; protocol: udp 
: smtp; port: 25 ; protocol: tcp 


tep 
udp 








mail 
: smtp; port: 25 ; protocol: udp 
mail 
: new-fe; port: 27 ; protocol: tcp z 


nsw-fe; port: 27 ; protocol: udp 
msg-icp; port: 29 ; protocol: tcp 
msg-icp; port: 29 protocol: udp 
msg-auth; port: 31 ; protocol: tcp 
: msg-auth; port: 31 protocol: udp 





8.8.5 网 络 接口 函数 
有 一 组 函数 可 以 检索 网 络 接口 名 字 和 它们 的 索引 号 。 首 先 有 一 个 函数 把 它们 取 到 
if_nameindex 结 构 数组 中 ， 并 有 相应 的 函数 释放 数组 : 
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if_nameindex 一 一 得 到 所 有 的 网 络 接口 名 字 和 索引 


#include <net/if.h> 


struct if_nameindex *if_nameindex(void) ; 
/* Returns array or NULL on error (sets errno) */ 


if_freenameindex 一 一 通过 if_nameindex 释 放 分 配 的 数组 
#include <net/if.h> 
void if_freenameindex( 


5 struct if_nameindex *ptr /* pointer to array */ 


struct if_nameindex 一 一 网 络 接口 函数 的 结构 


struct if_nameindex ( 
unsigned if_index; /* interface index */ 
char *if_name; /* interface name */ 





下 面 是 一 个 显示 索引 和 接口 的 函数 : 
static void ifdb(void) 


{ 
struct if_nameindex ‘ni; 


int i; 


ec_null( ni = if_nameindex() ) 

for (i = 0; nifi].if_index 0 || nili].if_name != NULL; i++) 
printf ("index: %d; name: s\n", ni{i).if_index, ni[i].if_name); 

if_freenameindex (ni); 

return; 





EC_CLEANUP_BGN 
EC_FLUSH("ifdb") 

EC_CLEANUP_END 

} 


在 Solaris 系 统 上 的 输出 为 : 


index: 1; name: 100 
index: 2; name: iprb0 


在 SuSE Linux | 4: 


index: 1; name: lo 
index: 2; name: ech0 


通过 8.8.2 节 的 函数 来 显示 匹配 的 网 络 名 有 两 种 : 一 个 是 loopback 接 口 ， 一 个 是 使 用 以 太 


网 的 Internet 接 口 。 
另 有 一 个 把 名 字 映 射 为 索引 的 函数 : 


if_nametoindex 一 一 把 网 络 接口 名 字 映 射 成 索引 


#include <net/if.h> 


unsigned if_nametoindex( 
const char *ifname /* interface name */ 


) i 
/* Returns index or 0 on error (errno not defined) */ 
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注意 : 如 果 名 字 没 找到 ， 那 么 返回 的 是 0 而 不 是 -1。 
把 索引 映射 成 名 字 ， 可 以 调用 : 


if_indextoname 一 一 把 网 络 接口 索引 映射 成 名 字 


#include <net/if.h> 


char *if_indextoname( 


unsigned ifindex, /* interface index */ 
char *ifname /* interface name */ 


de 
/* Returns name or NULL on error (sets errno) */ 





ifname 参 数 必须 是 至 少 IF_NAMESI2E 字 节 的 缓冲 , 其 中 要 包括 终止 符 NUL 的 字 节 空 间 。 
并 返回 指向 缓冲 的 指针 。 


8.9 其 他 系统 调用 
这 节 描述 几 个 不 适合 归 人 前 几 节 的 网 络 系统 调用 。 


8.9.1 send 和 recv 


这 两 个 函数 除了 允许 定义 标志 外 ， 其 他 行为 很 像 srite 和 read。 因 为 它们 没有 套 接 字 地 
址 参数 ， 所 以 它们 通常 使 用 有 连接 的 套 接 字 。 至 于 无 连接 的 套 接 字 ，sendto、sendmsg、 


recvfrom 和 recvmsg 更 合适 。 


send 一 一 向 套 接 字 发 送 数据 


#include <sys/socket.h> 


ssize_t send( 
int socket_fd, /* socket file descriptor */ 
const void ‘data, /* data to send */ 
size_t length, /* length of data */ 
int flags /* flags */ 


ve 
/* Returns number of bytes sent or -1 on error (sets errno) */ 








recy 一 一 从 套 接 字 接 收 数据 


#include <sys/socket .h> 











ssize_t recv( 








int socket_fd, /* socket file descriptor */ 
void *buffer, /* buffer to receive data */ 
size_t length, 7* length of buffer */ 

int flags /* flags */ 





W Returns number of bytes received, 0, or -1 on error (sets errno) */ 
send 和 recv 都 能 使 用 MSG_00B 标 志 ; 这 已 在 8.7 节 解释 过 了 。 另 外 ， 对 于 recv 可 以 限 


定 MSG_PEEK 和 /或 MSG_WAITALL，8.6.2 节 中 解释 过 这 两 个 标志 。 能 用 带 MSG_WAITALL 的 
recv 来 替代 8.5 节 SMI 实 现 中 的 调用 readall. 





8.9.2 getsockname 和 getpeername 
getsockname 能 够 得 到 与 前 一 个 调用 绑 定 的 套 接 字 地 址 : 
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getsockname 一 得 到 套 接 字 地 址 


#include <sys/socket .h> 


int getsockname ( 


int socket_fd, /* socket file descriptor */ 
struct sockaddr *sa, /* socket address */ 
socklen_t *sa_len /* address length */ 

yá 

/* Returns 0 on success or -1 on error (sets errno) */ 





与 通常 的 套 接 字 地 址 返回 函数 一 样 ， 在 输入 上 ，sa 应 该 指向 一 个 足够 大 的 缓冲 区 以 容纳 
套 接 字 地 址 ，sa_len 为 缓冲 区 大 小 。 在 输出 上 ，sa_len 为 实际 的 地 址 大 小 。 
能 获得 相连 套 接 字 的 套 接 字 地 址 的 一 个 相似 的 函数 为 : 


getpeername 一 一 得 到 已 连接 套 接 字 的 套 接 字 地 址 

#include <sys/socket.h> 

int getpeername( 
int socket_fd, /* socket file descriptor */ 
struct sockaddr *sa, /* socket address */ 
socklen_t *sa_len /* address length */ 


); 
/* Returns 0 on success or -1 on error (sets errno) */ 





通常 ， 如 果 有 连接 的 两 个 套 接 字 未 被 绑 定 ， 那 么 getpeername 的 返回 就 是 未 定义 的 ， 在 
这 种 情况 下 不 会 得 到 错误 返回 。 


8.9.3 socketpair 


AF_UNIX 套 接 字 的 行为 有 点 儿 像 双向 的 FIFO， 当 用 FIFO 时 ， 每 个 要 通信 的 进程 都 会 建立 
自己 的 套 接 字 。 相 反 ，pipe 系 统 调用 会 返回 子 进程 能 继承 的 两 个 文件 描述 符 。socketPair 
系统 调用 融合 了 这 两 种 方法 ， 一 次 调用 能 获得 两 个 套 接 字 文件 描述 符 : 


socketpair 一 一 建立 套 接 字 对 
#include <sys/socket.h> 


int socketpair( 
int domain, domain (AF_UNIX, AF_INET, etc.) */ 
int type, SOCK_STREAM, SOCK_DGRAM, etc. */ 
specific to type; usually zero */ 


int protocol 
int socket_vector(2] returned socket file descriptors */ 


de 
/* Returns 0 on success or -1 on error (sets errno) */ 





前 三 个 参数 很 像 socket 的 三 个 参数 。 处 理 什 么 样 的 domain 和 type 归 因 于 实现 ， 它 所 
要 支持 的 主要 是 AF_UNIX 和 SOCK_STREAM。 


8.9.4 shutdown 


当 关闭 (close) 仍 有 数据 传输 的 套 接 字 时 ， 系 统 会 尝试 着 接收 或 发 送 数 据 直到 放弃 尝 
试 并 扔 掉 数 据 。 在 关闭 套 接 字 之 前 ， 可 以 通过 调用 shutdown 来 指明 不 要 尝试 接 发 数据 : 
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shutdown 一 一 关闭 套 接 字 发 送 和 /或 接收 操作 


#include <sys/socket.h> 


int shutdown( 
int socket_fd, /* socket file descriptor */ 
int how /* SHUT_RD, SHUT_WR, or SHUT_RDWR */ 


) 
/* Returns 0 on success or -1 on error (sets errno) */ 





SHUT_RD 指 示 不 要 再 接收 ，SHUT_WR 指 示 不 要 发 送 ，SHUT_RDWR 指 示 两 者 都 不 要 。 


8.9.5 inet_ntop 和 inet_pton 


在 8.2.3 节 曾 讨论 过 inet_ntoa 和 inet_addr 函 数 在 二 进 制 [Pv4 地 址 与 点 串 之 间 的 转换 。 
下 面 要 讲 的 inet_ntop 和 inet_pton 更 巧妙 : 它们 既 能 转换 IPv4 地 址 ， 也 能 转换 IPv6 地 址 。 


inet_ntop 一 一 把 IPv4 或 IPv6 二 进 制 地 址 转换 成 字符 串 
#include <arpa/inet.h> 


const char *inet_ntop( 
int domain, /* AF_INET or AF_INET6 */ 
const void *src, /* pointer to binary address (input) */ 
char ‘dst, /* string (output) */ 
socklen_t dst_len /* length of dst buffer */ 


Ve 
/* Returns string or NULL on error (sets errno) */ 


inet_pton 一 一 把 IPv4 或 ITPv6 字 符 串 地 址 转换 成 二 进 制 


#include <arpa/inet.h> 


int inet_pton( 
int domain, /* AF_INET or AF_INET6 */ 
const char *src, /* string (input) */ 
void *dst /* buffer for binary address (output) */ 
); 
/* Returns 1 on success, 0 on bad string, or -1 on error (sets errno) */ 





inet_ntop 中 的 src 指 向 的 是 一 个 二 进 制 地 址 : 对 IPv4 来 说 是 32 位 数字 ， 对 IPv6 来 说 是 
16 字 节 的 数组 。 输 出 结果 放 在 了 由 dst 指 向 的 缓冲 区 。dst 的 大 小 由 两 个 宏 来 指定 : IPv4 使 用 
INET_ADDRSTRLEN 宏 ，IPv6 使 用 INET6_ADDRSTRLEN 宏 。 

对 于 inet_pton 而 言 ， 输 入 是 由 点 分 表示 法 或 冒号 表示 法 表示 的 字 串 ， 二 进 制 的 输出 结 
果 放 入 到 由 dst 指 向 的 缓冲 区 ， 和 输出 缓冲 区 最 好 足够 大 ， 因 为 它 没 有 长 度 参数 。IPv4 地 址 需 
要 32 位 ，IPv6 需 要 128 位 (16 字 节 ) 。 

示例 : 

static void cvt (void) 


{ 
char ipv6[16], ipv6éstr[INET6_ADDRSTRLEN], ipv4str{[INET_ADDRSTRLEN]; 


uint32_t ipv4; 


int r; 
ec_negi( r = inet_pton(AF_INET, "66.218.71.94", &ipv4) ) 
if (r == 0) 
printf ("Can't convert\n"); 
else { 


ec_null( inet_ntop(AF_INET, &ipv4, ipvd4str, sizeof(ipvdstr)) ) 
printf("%s\n", ipv4str); 
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ec_negl( r = inet_pton(AF_INET6, 
"FEDC: BA98: 7654 : 3210: FEDC:BA98:7654:3210", &ipv6) ) 
if (r == 0) 
printf ("Can't convert\n"); 
else ( 
ec_null( inet_ntop(AF_INET6, &ipv6, ipvéstr, sizeof(ipvéstr)) ) 
printf ("%s\n", ipv6str); 
} 
return; 


EC_CLEANUP_BGN 
EC_FLUSH ("cvt") 

EC_CLEANUP_END 

) 


调用 该 函数 得 到 的 输出 为 : 


66.218.71.94 
fedc:ba98:7654:3210:fedc:ba98:7654:3210 


8.10 高 性 能 方面 的 考虑 


在 8.4.4 节 中 给 出 的 Web 服 务 器 的 例子 ， 利 用 了 8.1.3 节 中 的 多 客户 端的 方法 。 现 在 假设 我 
们 的 服务 器 一 次 要 处 理 1000 个 客户 端 或 10 000 个 客户 端 ， 它 还 能 正常 工作 吗 ? 

通过 一 些 简单 的 例子 可 以 列 出 所 谓 的 “C10K”(“10 000 个 客户 端 ") 问题 : 

。select 必 须 查看 10 001 个 文件 描述 符 。 这 可 能 比 fd_set 的 容量 还 大 。 即 使 它 能 容纳 

这 个 数 ，select 也 要 花 很 长 时 间 来 处 理 这 些 文件 描述 符 。 

。 一 个 进程 能 打开 的 文件 描述 符 数量 是 有 限 的 ， 通 常 比 10 001 小 得 多 。 

。 为 了 提供 不 错 的 响应 ， 需 要 使 多 进程 或 多 线程 能 处 理 所 有 的 工作 ， 但 这 些 资 源 的 处 理 能 

力也 是 有 限 的 。 

。 将 数据 从 文件 复制 到 套 接 字 ( 即 进程 内 存 的 输入 和 输出 ) 非常 耗 时 ， 它 是 10 000 个 客户 端 

的 瓶颈 。 

。 服 务 器 可 能 会 使 用 许多 内 部 表格 和 其 他 资源 ， 从 而 使 空间 匮乏 或 使 运行 速度 变 慢 ， 或 者 

两 者 兼 而 有 之 。 

可 以 看 出 问题 相当 严重 ， 这 就 是 为 什么 实时 Web 服 务 器 (或 者 其 他 大 容量 的 服务 器 ) 是 
一 种 非常 复杂 的 软件 的 一 个 原因 。 

如 果 你 要 处 理 10 000 或 500 个 客户 端 ， 那 么 有 一 篇 不 错 的 名 为 《The C10K Problem) HIX 
章 可 参阅 ， 它 讲述 了 这 个 问题 ， 并 探讨 了 可 能 的 解决 方案 [Keg2003]。 


练习 


8.1 修改 8.1.3 节 的 多 客户 端 程序 ， 使 它 能 在 两 台 计算 机 上 工作 (AF_INET )。 让 服务 器 程序 和 客户 端 程序 
运行 在 不 同 的 机 器 上 。 

8.2 利用 [RFC1288] 中 的 信息 ， 实 现 一 个 简单 的 finger 命 令 ， 除 userehost 参 数 以 外 没有 其 他 选项 。 并 
利用 有 连接 的 套 接 字 (SOCK_STREAM)。 在 下 一 个 练习 中 可 能 需要 一 个 设置 端口 号 的 选项 。 

8.3 同样 利用 [RFC1288] ， 实 现 一 个 简单 的 finger 服 务 器 ， 但 要 使 用 没有 用 过 的 高 端口 号 (例如 3079)， 
不 要 用 标准 端口 79。 利 用 有 连接 的 套 接 字 。 用 前 一 个 练习 写 的 finger 命 令 测试 这 个 服务 器 。 如 果 你 
有 一 台 可 用 于 测试 的 机 器 ， 那 么 你 可 以 把 服务 器 安装 在 端口 9 上， 并 在 另 一 台 机 器 上 用 标准 finger 
命令 测试 它 。 
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8.4 与 练习 8.2 相 同 ， 但 要 利用 无 连接 的 套 接 字 来 实现 。 

8.5 与 练习 8.3 相 同 ， 但 要 利用 无 连接 的 套 接 字 来 实现 。 

8.6 利用 RFC 2549 来 设计 和 实现 一 个 简单 的 通信 程序 。 要 保证 程序 的 协调 和 服务 质量 水 平 。 

8.7 利用 Qt 这 样 的 GUI 工具 包 实 现 一 个 图 形 界面 的 Web 浏 览 器 。 注意: 这 的 确 很 难 ! 可 能 要 花 一 学 期 的 时 间 
才能 完成 。 提 示 : 用 处 理 储 套 表格 的 方法 来 设计 程序 。 如 果 能 完成 这 个 练习 ， 其 他 事 就 相对 容易 了 。 
8.8 利用 无 连接 套 接 字 实 现 SMI， 不 要 用 8.5 节 的 有 连接 套 接 字 。 运 行 一 些 7.5 节 那样 的 计时 测试 来 测试 一 

下 程序 。 

8.9 实现 一 个 Web 网 页 仆 行 程序 ， 它 从 一 些 URL 地 址 开始 ， 在 其 上 找到 其 他 的 URL 地 址 (例如 通过 在 其 
上 查找 以 “href” 开 始 的 字 串 )， 把 所 找到 的 URL 地 址 添加 到 列表 中 ， 再 通过 扫描 这 些 URL 找 到 更 多 
的 地 址 。 当 找到 特定 数量 的 URL 地 址 或 当 它 被 中 断 时 停止 。( 显然 ， 当 遇 到 错误 时 需要 能 够 继续 。) 
要 有 一 种 方法 显示 结果 ， 至 少 显示 所 有 找到 的 URL 地 址 和 它们 的 扫描 是 否 成 功 ( 成 功 时 HTTP 状 态 为 
200)， 如 果 不 成 功 ， 要 显示 出 原因 是 什么 。 因 为 不 能 疏 行 已 查找 过 的 网 页 ， 所 以 必须 实现 Robot 不 相 
容 协议 (Robot Exclusion Protocol) (详情 见 www.robotstxt.org )。 要 提供 疏 行 每 台 主机 (第 一 个 斜 线 
之 前 的 URL 部 分 ) 仅 一 次 的 “独一无二 的 主机 ”选项 ， 可 以 使 用 爬行 那 台 主机 时 第 一 个 尝试 的 URL 
(例如 ，www.basepath.com/index.htm )。 通 过 这 种 选项 ， 尝 试 找到 代表 成 功 扫描 到 的 唯一 主机 的 最 开 
始 的 URL (我 认为 从 www.yahoo.com 开 始 是 一 个 好 主意 ， 因 为 所 有 的 链接 都 和 www.yahoo.com 有 关 
A.) 当 运 行 仆 行程 序 时 ， 确 保 不 要 独占 网 络 资源 ， 否 则 影响 他 人 。 

8.10 扩展 练习 5.14 所 写 的 程序 ， 使 它 包括 在 本 章 解释 过 的 附录 A 中 进程 属性 。 


第 9 章 ”信号 和 定时 器 


9.1 信号 的 基本 概念 


信号 是 指 当 事 件 发 生 时 所 发 出 的 通知 ， 诸 如 用 户 键入 中 断 命令 (通常 使 用 Ctrl-c)， 产 生 
浮 点 异常 或 者 警报 。 通 常 ， 信 号 会 被 异步 地 传输 给 进程 或 线程 ， 而 不 管 进程 或 线程 正在 做 什么 
都 会 被 打 断 。 信 和 号 可 能 会 立刻 结束 进程 ， 或 按 预 先 安排 ， 运行 一 个 指定 的 函数 来 捕捉 信号 。 


9.1.1 信号 简介 

为 说 明 程序 如 何 处 理 信 号 ， 这 里 给 出 一 个 简单 的 例子 。 例 如 ， 某 程序 每 3 秒 显示 一 个 数字 ， 
但 当中 断 信号 出 现时 ， 它 会 显示 一 个 消息 并 终止: 

static void fcn(int signum), 


{void)write(STDOUT_FILENO, "Got signal\n*, 11); 
exit (EXIT_FAILURE) ; 


int main(void) 


int i; 
struct sigaction act; 


memset (&act, 0, sizeof (act)); 
act.sa_handler = fcn; 
ec_negl( sigaction(SIGINT, &act, NULL) ) 


for (i = 1; ; i++) ( 
sleep (3); 
printf (*%d\n", i); 
) 


exit (EXIT_SUCCESS) ; 
EC_CLEANUP_BGN 
exit (EXIT_FAILURE) ; 


EC_CLEANUP_END 
} 


调用 sigaction 了 时 , 设置 了 SIGINT 信 号 的 信号 处 理 函 数 。 当 运行 此 程序 时 ， 只 需 在 “2” 
出 现 后 键入 Ctrl~c 键 。 无 论 什么 程序 正在 运行 什么 (也许 是 在 休眠 ， 或 者 是 在 执行 Printf 函 
数 ， 也 可 能 正 处 在 循环 中 )， 都 会 被 中 断 ， 并 立刻 调用 fcn 函 数 ， 该 函数 会 显示 一 个 消息 ， 并 
调用 -exit 终 止 程序 。( 不 使 用 exit 的 原因 见 9.1.7 节 。) 

其 屏幕 输出 为 : 


1 
2 
Got signal 


如 果 没 有 安装 该 信号 处 理 程序 ， 按 下 Ctrl-c 将 会 立即 终止 该 进程 。 从 技术 上 说 ， 原 因 是 
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SIGINT 信 号 的 默认 动作 是 终止 进程 。 
也 可 以 调用 sigaction 来 忽略 SIGINT 信 号: 


int main(void) 
{ 
int i; 
struct sigaction act; 


memset (&act, 0, sizeof(act)); 
act.sa_handler = SIG_IGN; 
ec_negl( sigaction(SIGINT, &act, NULL) ) 


for (i = 1; ; i++) ( 
sleep(3); 
printf("d\n", i); 

} 

exit (EXIT_SUCCESS) ; 


EC_CLEANUP_BGN 
exit (EXIT_FAILURE) ; 

EC_CLEANUP_END 

) 


这 一 次 它 不 停 地 显示 数字 ， 按 下 Ctrl-c 没 有 任何 作用 。 我 们 最 终 通过 按 下 Ctrl-\ 键 终止 了 该 进 
程 ， 因 为 这 会 产生 一 个 退出 信号 (SIGQUIT)， 其 未 经 修改 的 默认 动作 是 终止 进程 。 
好 了 ， 基 础 知识 就 介绍 到 这 里 。 实 际 上 ， 信 和 号 是 非常 复杂 的 ， 因 为 : 
“存在 大 量 不 同 的 信和 号， 有 时 产生 这 些 信号 的 环境 和 它们 的 含义 是 复杂 的 。 
* 为 信号 设 定 合适 的 动作 可 能 会 很 复杂 。 
“* 处理 信号 可 能 会 很 复杂 。 
下 面 请 跟随 我 逐步 深入 该 问题 。 读 完 本 章 后 ， 就 能 明白 所 有 这 些 问题 。 


9.1.2 信号 的 生命 周期 


信号 生命 周期 的 起 点 是 ， 与 其 相关 联 的 某 个 事件 发 生 并 产生 出 该 信号 ， 其 终点 是 信和 号 完 
成 传递 时 ， 这 意味 着 已 经 执行 了 某 种 专 为 其 设置 的 动作 。 可 能 的 动作 有 以 下 三 种 : 

1) 默认 动作 (SIG_DFL): 终止 、 停 止 或 继续 执行 进程 ， 或 忽略 信号 。 

2) 忽略 信号 (SIG_IGN). 

3) 在 完成 信号 传递 后 ， 通 过 运行 信号 处 理 程序 来 捕获 信号 。 

无 论 和 信号 相关 联 的 是 什么 用 户 或 者 什么 系统 事件 ， 大 多 数 信号 都 可 以 自然 地 产生 。 例 
如 ， 被 零 除 自然 产生 一 个 SIGFPE 事 件 ， 终 止 一 个 子 进程 自然 产生 一 个 SIGCHLD 事 件 。 作 为 
另 一 种 选择 ， 任 何 信号 都 可 以 通过 以 下 5 种 系统 调用 人 工 产生 : kill、killpg、 
pthread_kill、raise 或 sigqueue。 在 下 一 节 中 将 列 出 所 有 这 些 信号 ， 如 果 某 信号 能 够 
自然 产生 ， 就 标示 出 其 自然 起 因 。SIGKILL、SIGSTOP、SIGTERM、SIGUSR1 和 SIGUSR2 
5 种 信号 不 存在 自然 起 因 ， 只 能 通过 人 工 产生 ， 通 常 由 kil1 系 统 调用 产生 。 

信号 从 产生 后 到 传递 前 所 处 的 状态 叫做 挂 起 。 当 某 个 信号 挂 起 时 ， 如 果 另 一 个 同类 信号 
到 达 ， 那 么 是 否 传递 多 个 同类 信号 就 要 取决 于 具体 实现 了 ， 在 可 移植 编程 中 不 能 事先 假定 。 
有 关 本 主题 的 更 多 内 容 见 9.5.3 节 。 

线程 ( 见 5.17 节 ) 可 以 通过 对 信号 进行 得 富 ， 使 得 挂 起 的 信号 继续 保持 挂 起 。9 全 部 当前 


O 如 果 进程 中 只 有 一 个 线程 ， 可 能 是 因为 它 没有 执行 任何 多 线程 的 工作 ， 那 么 本 书 关于 线程 的 内 容 总 体 上 也 
能 用 于 这 种 进程 。 
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被 阻塞 的 信号 的 集合 叫做 信号 屏蔽。 本 书 9.1.5 节 中 讲述 的 许多 系统 调用 ， 可 以 用 来 创建 和 处 
理 屏蔽 ， 并 使 得 某 个 特定 屏蔽 成 为 线程 的 有 效 信号 屏蔽 。 

生成 的 信号 既 可 以 用 于 某 个 特定 的 线程 ， 也 可 以 用 于 整个 进程 。 对 于 后 者 ， 如 果 有 多 个 
拥有 该 信号 的 线程 都 未 阻塞 ， 则 信号 传递 到 哪个 线程 是 不 确定 的 。 在 9.1.3 节 中 ， 对 在 何 种 情 
况 下 哪些 事件 被 发 送 到 线程 与 进程 ， 给 出 了 更 详细 的 信息 。e 

虽然 上 文 说 过 ， 信 号 屏蔽 是 针对 每 个 线程 的 ， 但 针对 信号 的 动作 是 全 进程 范围 的 ， 尽 管 
可 能 存在 多 个 线程 。 

一 般 来 说 ， 当 运行 信号 处 理 程序 时 ， 其 处 理 的 信号 会 被 临时 加 入 到 那个 线程 的 信号 屏蔽 
中 去 ， 因 此 直到 处 理 程序 返回 之 前 ， 将 不 会 传递 第 二 个 同类 信号 。 这 样 ， 就 不 必 担心 发 生 处 
理 程序 对 同一 信号 的 递归 调用 。 然 而 ， 如 果 对 几 种 不 同类 型 的 信号 使 用 同一 函数 ， 还 是 可 能 
会 发 生 递归 调用 。 


9.1.3 信和 号 的 类 型 


在 [SUS2002] 中 定义 了 28 种 信号 ， 其 中 大 多 数 的 实现 定义 较 多 并 可 以 自行 查找 ， 在 此 不 做 
描述 。 同 样 ， 有 一 些 附加 信号 是 实时 信号 扩展 (9.5 节 ) 中 的 一 部 分 。 将 SUS 信 号 分 类 是 很 有 
用 的 。 在 下 表 中 ， 圆 括号 中 的 字母 标明 了 信号 的 默认 动作 ， 稍 后 对 其 进行 解释 。 每 个 信号 的 
自然 起 因 已 进行 了 标示 ; 那 5 种 只 能 人 工 产生 的 信号 (上 节 中 已 作 解 释 ) 已 明确 标 出 。 请 记 住 ， 
所 有 具有 自然 起 因 的 信号 都 可 以 人 工 产生 。 

。 错 误 检 测 : 

SIGBUS 一 一 对 未 定义 的 存储 器 对 象 部 分 进行 访问 (A) 

SIGFPE 一 一 错误 的 算法 操作 (A) 

SIGILL 一 一 非法 指令 (A) 

SIGPIPE 一 一 对 不 存在 读者 的 管道 写 人 (TT) 

SIGSEGV 一 一 无 效 的 存储 器 引用 (A) 

SIGSYS 一 一 失败 的 系统 调用 (A) 

SIGXCPU 一 一 超出 CPU 时 间 限 制 (A) 

SIGXFS2 一 一 超出 文件 大 小 限制 (A) 

。 用 户 /应 用 程序 产生 的 : 

SIGABRT 一 一 调用 abort (A) 

SIGHUP 一 一 挂 断 (T) 

SIGINT 一 一 中 断 (来 自 键盘 ) (T) 

SIGKILL 一 一 终止 ; 只 能 人 工 产生 (T) 

SIGQUIT—iB (KARA) (A) 

SIGTERM—# it; 只 能 人 工 产生 (T) 

SIGUSR1 一 一 用 户 信 号 1; 只 能 人 工 产生 (T) 

SIGUSR2 一 一 用 户 信 号 2; 只 能 人 工 产生 (T) 

。 任 务 控 制 : 

SIGCHLD 一 一 子 进程 的 终止 或 停止 (1) 


日 本 章 中 关于 线程 的 内 容 仅 适用 于 POSIX 线 程 的 实现 一些 在 Linux 和 FreeBSD 系 统 中 广泛 使 用 的 “Linux 线 
程 ”并 不 是 POSIX 线 程 的 忠实 实现 ， 信 号 不 能 以 标准 的 方式 与 其 一 起 工作 。 然 而 ， 最 新 发 布 的 版 本 NPTL 工 
作 得 很 好 。 
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SIGCONT 一 一 继续 运行 (来 自 键盘 ) (C) 

SIGSTOP 一 一 停止 运行 ; 只 能 人 工 产生 (S) 

SIGTSTP 一 终止 停止 信号 (来 自 键盘 ) (S) 

SIGTTIN 一 一 后 台 进 程 尝试 读 取 (S) 

SIGTTOU 一 一 后 台 进程 尝试 写 入 (S) 

“定时 器 : 

SIGALRM 一 一 阅 钟 超时 (T) 

SIGVTALRM 一 虚拟 定时 器 超时 (T) 

SIGPROF 一 一 剖面 定时 器 超时 (T) 

。 其 他 事件 : 

SIGPOLL 一 一 可 查询 事件 (T) 

SIGTRRP 一 一 跟踪 / 断 点 陷 门 (A) 

SIGURG 一 socket 可 用 的 带 外 数据 (1) 

以 下 是 圆 括号 中 的 字母 (RUTA) 的 含义 : 

I 信和 号 被 忽略 。 

T 终止 。 

A 和 T 相 同 ， 但 包含 更 多 的 必须 实现 的 动作 ， 如 写 人 核心 转 储 文件 。 

S 停止 。 

C 停止 后 继续 。 

自然 产生 的 错误 检测 信号 是 程序 错误 的 结果 。 对 于 SIGBUS、SIGFPE、SIGILL 和 
sIGSEGV 来 说 ,错误 产生 的 确切 原因 不 是 标准 化 的 ， 通 常 是 由 硬件 检测 出 来 的 错误 。 同 样 ， 
当 这 4 个 信号 自然 产生 时 ， 它 们 服从 一 些 特定 的 规则 : 

。 如 果 其 设置 被 sigaction 忽 略 ， 其 行为 是 不 定 的 。 

。 信 号 捕获 函数 返回 的 结果 是 不 定 的 。 

© 在 阻塞 时 其 发 生 结果 是 不 定 的 。 

换 一 种 说 法 ， 如 果 硬 件 检测 出 的 错误 是 真实 的 ， 程 序 不 能 等 闲 视 之 。 忽 略 它 ， 在 信号 处 
理 程序 返回 之 后 继续 运行 ， 或 阻塞 它 以 使 动作 延期 ， 都 是 不 安全 的 。 应 马上 进行 处 理 ， 并 必 
须 使 用 具有 退出 (或 长 跳 转 ， 见 9.6 节 ) 功能 的 信号 处 理 程序 ， 而 不 是 返回 ， 或 者 执行 默认 动 
作 立 刻 终 止 进 程 。 

有 两 个 由 用 户 /应 用 程序 产生 的 信号 : SIGINT 和 SsIGQUIT， 它 们 通常 和 在 4.5.7 节 中 解释 
过 的 键盘 控制 序列 相关 联 。SIGHUP 通 常 是 挂 断 终端 设备 产生 的 结果 。SIGABRT 是 由 abort 
系统 调用 ( 见 9.1.9 节 ) 产生 的 ，SIGTERM 是 ki11 命 令 的 默认 信号 一 这 是 终止 任意 进程 的 主 
要 方法 , 例如 当 系 统管 理 员 需 要 关闭 系统 时 。SIGUSR1 和 SIGUSR2 不 被 任何 系统 调用 所 使 用 ， 
它们 仅 能 被 应 用 程序 所 使 用 。 

任务 控制 信号 已 经 在 4.3 节 中 讨论 过 了 。 

sIGALRM 将 在 9.7.1 节 中 讨论 。 另 外 两 种 定时 器 信号 在 9.7.4 节 中 讨论 。 

在 其 他 事件 信号 中 ，SIGPOLL 可 以 和 STREAMS ( 见 4.9 节 ) 一 起 使 用 ; 通过 调用 ioct1 
能 使 其 有 效 。 该 信号 通常 并 不 会 产生 ， 因 此 不 必 担心 它 。SIGURG 已 在 8.7 节 中 解释 过 了 。 
SIGTRAP 是 供 调 试 程序 使 用 的 。 

信号 被 传递 后 ， 就 无 从 知晓 它 是 自然 产生 的 还 是 人 工 产生 的 了 。 如 果 某 个 错误 检测 信号 
是 自然 产生 的 ， 那么 它 会 被 送 往 违例 线程 ;而 其 他 信号 被 送 往 进 程 。 人 工 产生 的 信号 可 以 被 
送 往 一 个 线程 或 进程 ， 这 取决 于 使 用 哪个 系统 调用 ( 见 9.1.9 节 ) 来 产生 它 。 
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那些 在 终止 之 前 需要 执行 清理 的 程序 ， 应 当 设置 成 具有 捕获 信号 SIGHUP、SIGINT 和 
SIGTERM 的 功能 。 在 程序 成 形 之 前 ， 应 该 一 直 保留 着 SIGQUIT， 以 便 从 键盘 可 以 终止 该 程序 
(并 进行 核心 转 储 )。 对 其 他 信号 并 不 需要 经 常 进行 设置 ， 通 常 它 们 被 留 作 终止 进程 之 用 。 但 
是 ， 精 心 构造 的 程序 会 需要 捕获 所 有 能 捕获 的 东西 ， 为 了 执行 清理 ， 可 能 还 需要 记录 错误 ， 
并 输出 详尽 的 错误 信息 。 从 心理 学 角度 上 来 讲 ， 形 如 “内 部 错误 53: 请 与 客户 支持 进行 联络 ” 
的 信息 ， 要 比 shell 提 供 的 “已 核心 转 储 的 总 线 错误 ”之 类 的 信息 更 为 人 们 所 接受 。 在 后 面 的 
9.1.8 节 中 会 给 出 该 主题 的 更 多 信息 及 示例 程序 。 


9.1.4 中 断 系统 调用 


对 不 能 被 忽视 的 信号 进行 传递 可 能 会 引起 系统 调用 的 中 断 。 如 果 动 作 的 结果 是 终止 进程 ， 
那么 原因 可 能 有 两 个 ， 或 者 因为 这 是 信号 的 默认 动作 ， 或 者 因为 信号 处 理 程序 终止 了 进程 。 
正如 上 文 例子 显示 的 那样 ， 中 断 的 系统 调用 绝对 不 会 再 继续 了 。 如 果 动 作 是 停止 进程 ， 那 么 
当 进程 继续 时 ， 运 行 也 会 恢复 。 

然而 ， 如 果 动 作 是 捕获 信号 并 且 信 号 处 理 程序 也 返回 了 ， 那 么 中 断 的 系统 通常 不 会 被 重 
新 启动 。 相反， 它 通常 会 返回 -1 并 将 errno 置 为 ETINTR。 在 某 些 情况 下 ， 这 正 是 你 所 需要 
的 ; 例如 ， 你 可 能 精心 地 设置 了 某 个 定时 器 ， 以 产生 一 个 SIGALRM 信 号 ， 用 来 在 一 段 时 间 
(如 10 秒 钟 ) 后 中 断 某 个 等 待 的 read。 但 在 另外 一 些 情况 下 ， 因 为 算法 不 允许 调用 被 中 断 ， 
这 时 中 断 系统 调用 会 出 问题 。 

要 遵循 的 最 简单 的 规则 是 : 绝对 不 要 从 信号 处 理 程序 返回 ， 除 非 已 经 对 信号 发 生 的 上 下 
文 进行 了 仔细 的 控制 。 如 果 那 样 做 不 实际 的 话 ， 那 么 就 可 以 在 为 信号 调用 sigaction 时 设置 
SA_RESTART 标 志 ( 见 9.1.6 节 )， 这 样 系统 调用 不 会 被 中 断 一 一 相反 ,在 信号 处 理 程序 返回 时 ， 
它们 会 从 中 断 处 继续 。 

只 有 阻塞 的 系统 调用 可 以 被 中 断 。 在 该 上 下 文中 ,“ 阻 塞 ”意味 着 调用 正在 等 待 某 些 不 可 
预知 来 临时 间 的 事件 ， 如 来 自 终端 或 socket 的 和 输入、 进程 的 中 止 、 消 息 的 到 达 、 信 和 号 量 的 发 送 
等 。 那 些 仅仅 需要 花费 时 间 的 系统 调用 不 会 被 阻塞 ， 如 读 取 文 件 或 创建 进程 ; 虽然 存在 少量 
的 延迟 ， 但 这 些 时 间 用 在 了 处 理 或 等 待 处 理 程序 ， 而 不 是 等 待 某 些 不 可 预知 的 事件 。 

并 非 所 有 阻塞 的 系统 调用 都 可 以 被 中 断 。 例 如 pthread_mutex_lock， 它 甚至 在 信号 
到 达 及 其 处 理 程序 返回 后 仍 继续 等 待 。 确 定 某 系 统 调用 是 否 可 以 被 中 断 的 唯一 途径 ， 是 阅读 
它 的 文档 ， 最 好 是 SUS 中 的 文档 。 


9.1.5 管理 信号 屏蔽 
正如 select ( 见 4.2.3 节 ) 使 用 fd_set 一 样 ， 信 号 屏蔽 拥有 一 组 函数 来 处 理 不 同 的 位 : © 






sigemptyset 一 一 初始 化 空 信号 集 


#include <signal.h> 











int sigemptyset ( 
sigset_t *set /* signal set */ 





ve 
/* Returns 0 on success or -1 on error (sets errno) */ 





O ”替代 方法 是 只 使 用 一 个 unsigned long， 但 在 引入 这 些 函 数 的 时 候 ，1ong 在 几乎 所 有 的 机 器 上 都 是 32 位 
的 (Long long 还 没 被 引入 ), 现在 认为 32 位 太 小 了 。 


416 FOE 









sigfillset 一 一 初始 化 整个 信号 集 


#include <signal.h> 








int sigfillset( 
sigset_t *set /* signal set */ | 


5 
/* Returns 0 on success or -1 on error (sets errno) */ 


sigaddset 一 一 把 信号 加 入 信号 集 


#include <signal.h> 










int sigaddset ( 
sigset_t *set, /* signal set */ 
int signum /* signal */ 

1; 

/* Returns 0 on success or -1 on error (sets errno) 


sigdelset 一 一 从 信号 集中 删除 信号 


#include <signal.h> 


+} 

















int sigdelset ( 
sigset_t *set, /* signal set */ 
int signum 7* signal */ 











ve 
/* Returns 0 on success or -1 on error (sets errno) */ 


sigismember 一 一 在 信号 集中 测试 信号 


#include <signal.h> 
int sigismember ( 
const sigset_t *set, /* signal set */ 
int signum /* signal */ 


) 7 
/* Returns 1 if member, 0 if not, or -1 on error (sets errno) */ 





设 定 sigset_t 后 ， 从 sigemptyset 或 sigfillset 开 始 ， 接 着 调用 sigaddset 或 
sigdelset 来 添加 或 删除 成 员 。 可 以 调用 sigismember 来 测试 某 个 信号 是 否 是 成 员 。 
在 同一 时 间 一 个 线程 只 能 有 一 个 信号 屏 项 ， 可 以 通过 pthread_sigmask 对 其 进行 设置 : 


pthread_sigmask 一 一 改变 线程 的 信号 掩 码 


int pthread_sigmask( 
int how, /* how signal mask is to be changed */ 
const sigset_t ‘set, /* input set */ 
sigset_t *oset /* previous signal mask */ 


dz 
/* Returns 0 on success, error number on failure (errno not set) */ 





输入 参数 set 如 何 改变 信号 屏蔽 ， 由 how 参 数 决定 : 

SIG_BLOCK 新 信号 屏蔽 成 为 当前 信号 屏蔽 和 set 的 并 集 。 

SIG_SETMASK 新 信号 屏蔽 成 为 seet ， 完 全 取代 了 当前 的 信号 屏蔽 。 

SIG_UNBLOCK 新 信号 屏蔽 成 为 当前 信号 屏蔽 和 set 的 补 集 的 并 集 。 
换 句 话说 ，SIG_BLOCK 将 set 参 数 中 的 信号 添加 到 了 信号 屏蔽 中 ，SIG_UNBLOCK 从 信号 屏 
项 中 删除 了 set 参 数 中 的 信号 ， 而 SIG_SETMASK 只 是 将 信号 屏蔽 置 成 了 set。 

如 果 oset 非 NULL， 则 oset 返 回 的 是 指向 上 一 个 信号 屏蔽 的 指针 。 同 样 ，set 可 以 为 
NULL， 这 时 信号 屏蔽 不 被 改变 (无论 how 是 什么 ) ， 但 会 通过 oset (如 果 oset 非 NULL) 返 
回 该 信号 屏蔽 的 指针 ; 这 是 仅 获取 信号 屏蔽 而 不 改变 它 的 一 种 方法 。 
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不 能 阻塞 SITGKILL 或 SIGSTOP 信 号 ， 因 为 它们 总 是 被 发 送 给 进程 的 ， 并 且 总 是 用 于 终止 
或 停止 进程 的 。( 同样 ， 它 们 不 能 被 捕获 或 忽略 . ) 

如 果 进 程 中 只 有 一 个 线程 ， 那 么 可 以 选择 调用 一 个 更 老 (在 POSIX 中 引入 线程 之 前 就 已 经 存 
TE) 的 函数 ， 除 了 使 用 errno 代 替 返 回 错误 代码 外 ， 其 执行 过 程 和 pthread_sigmask 完 全 一 致 


sigprocmask 一 一 改变 线程 的 信号 掩 码 ( 仅 单个 线程 ) 


#include <signal.h> 


int sigprocmask( 
int how, /* how signal mask is to be changed */ 


const sigset_t ‘set, /* input set */ 
sigset_t *oset /* previous signal mask */ 


; 
/* Returns 0 on success or -1 on error (sets errno) */ 





通常 ， 因 为 完全 未 使 用 线程 的 程序 并 没有 链接 到 “pthread” 库 ， 因 此 pthread_ 
sigmask 是 不 可 用 的 ， 对 此 没有 其 他 办 法 ， 只 能 使 用 sigprocmask。®9 

不 要 阻塞 具有 信号 屏蔽 的 信号 ， 因 为 需要 进程 来 忽略 它 一 一 这 就 是 STG_IGN 动 作 存在 的 
原因 。 相 反 ， 阻 塞 是 一 种 临时 的 状态 ， 用 于 保护 部 分 代码 不 受信 号 到 达 的 影响 。 上 文 已 提 到 
了 这 样 一 个 例子 : 当 信号 处 理 程序 运行 时 ， 引 起 处 理 程序 被 调用 的 信号 会 被 自动 临时 性 地 加 
入 到 信号 屏蔽 中 ， 并 在 (如果 ) 函数 返回 时 被 删除 。8 

另 一 个 例子 是 ， 在 应 用 程序 启动 完毕 之 前 ， 有 一 个 机 会 来 设置 它 所 关心 的 所 有 信号 的 动 
作 。 所 需要 进行 的 工作 就 是 , 调用 sigfillset 和 pthread_sigmask (或 sigprocmask)， 
以 获得 临时 的 改变 。 

本 章 中 还 有 其 他 一 些 说 明 信 号 屏蔽 重要 性 的 示例 。 


9.1.6 sigaction 系 统 调用 
当 信 号 传递 后 ， 可 通过 sigaction 系 统 调用 来 决定 采取 的 动作 。 对 每 个 要 进行 动作 设置 
的 信号 ， 都 要 调用 它 ; 


sigaction 一 一 设置 信号 动作 
#include <signal.h> 
int sigaction( 
int signum, /* signal */ 
const struct sigaction *act, /* new action */ 
struct sigaction *oact /* old action */ 


de 
7* Returns 0 on success or -1 on error (sets errno) */ 


struct sigaction 一 一 sigaction 的 结构 


struct sigaction { 
void (*sa_handler) (int); /* SIG_DFL, SIG_IGN, or function pointer */ 
sigset_t sa_mask; /* additional signals to be blocked */ 
int sa_flags; /* flags */ 
void (*sa_sigaction) (int, siginfo_t *, void *); /* Realtime Signal 
handler */ 





日 在 我 使 用 的 Solaris 版 本 中 没有 pthead 库 ， 但 也 定义 了 pthread_sigmask， 然 而 它 不 起 任何 作用 。 我 不 得 


不 将 其 改 为 sigpromask。 
© 如 果 使 用 longjmp 从 信号 处 理 程序 中 跳出 , 信号 屏蔽 如 何 改变 是 不 定 的 。 所 以 应 该 使 用 siglongjmp ( 见 9.6 节 )。 
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参数 act 指 向 为 整个 进程 指定 新 动作 的 一 个 结构 一 一 它 并 不 为 单独 的 线程 保留 信号 动作 。 
如 果 oact 不 是 NULL， 其 指针 将 指向 返回 的 原 动 作 。 如 果 就 是 想得到 原 动 作 ， 可 以 将 act 置 
为 NULL， 这 样 就 不 会 改变 动作 。 本 书 的 大 多 数 示 例 都 将 oact 置 为 了 NULL， 但 在 9.7.2 节 的 一 
个 例子 中 ， 它 被 用 来 保存 原 动 作 以 作 恢 复 之 用 。 

不 能 改变 SIGKILL 的 动作 ， 它 总 是 用 来 终止 进程 (而 不 仅仅 是 某 个 线程 ) ; 也 不 能 改变 
SIGSTOP 的 动作 ， 它 总 是 用 来 停止 进程 (也 不 仅仅 是 线程 )。 

在 sigaction 结 构 中 ，sa_handler 通 过 以 下 值 中 的 一 个 来 指定 动作 : 

SIG_DFL ”信号 采 用 其 默认 动作 ， 具 体 依 信号 而 定 。 如 9.1.3 节 中 描述 的 那样 ， 动 作 通常 
是 忽略 、 终 止 、 停 止 或 继续 。 同 样 ， 它 们 总 是 应 用 于 整个 进程 ， 从 不 应 用 到 单个 的 线程 。 

SIG_IGN 忽略 信号 ， 因 此 其 传递 不 起 作用 。 当 SIGCHLD 信 号 置 为 SIG_IGN 时 也 存在 副 
作用 ， 其 中 SIG_IGN 的 作用 和 sA_NOCLDWAIT 标 志 相 同 ; 请 见 下 文 。 令 人 感到 不 解 的 是 ， 将 
SIGCHLD 置 为 SIG_DFL 并 不 会 产生 这 种 副作用 ， 尽 管 该 信号 的 默认 动作 是 忽略 它 。 

函数 指向 信号 处 理 函 数 的 指针 ; 信号 被 其 捕获 。 

信号 处 理 程序 和 9.1.1 节 中 的 一 个 例子 很 相似 : 


static void fcn(int signum) 
í 
(void)write(STDOUT_FILENO, *Got signal\n*, 11); 
exit (EXIT_FAILURE) ; 
) 


函数 只 需要 有 正确 的 原型 ， 可 以 是 静态 (static) 的 ， 也 可 以 不 是 。 信 号 传递 后 ， 调 用 
函数 ， 其 参数 设置 为 信号 的 编号 (例如 ，SIGINT、SIGUSR1)。9.1.3 节 中 描述 了 不 同 的 信号 
及 其 宏 名 称 。 既 可 以 为 每 个 信号 编号 设 定 一 个 单独 的 函数 ， 也 可 以 为 全 部 信号 只 设 定 一 个 函 
数 ， 或 者 介 于 上 述 二 者 之 间 。 关 于 在 信号 处 理 程序 中 可 以 进行 哪些 工作 ， 将 在 9.1.7 节 中 详 述 。 

如 果 支 持 实时 信号 选项 ， 就 可 以 设置 SA_SIGINFO 标 志 ( 见 下 文 )， 然 后 在 信号 处 理 程序 
中 使 用 sa_sigaction 成 员 代替 sa_handler 成 员 ， 这 会 为 信号 处 理 程序 提供 更 多 的 信息 。 
这 一 特性 将 在 9.5 节 中 讨论 。 在 实现 中 ，sa_sigaction 和 sa_handler 可 能 会 使 用 同一 个 
存储 器 ， 因 此 要 确保 只 设置 二 者 中 的 一 个 。 设 置 一 个 然后 将 另 一 个 置 为 零 是 错误 的 。 

如 上 文 所 述 ， 当 处 理 程序 运行 时 ， 引 起 处 理 程序 被 调用 的 信号 会 被 阻塞 ， 但 可 以 通过 使 
用 9.1.8 节 中 的 信号 屏蔽 处 理 函 数 ， 在 sa_mask 参 数 中 进行 指定 ， 以 阻塞 附加 的 信号。 

当 线 程 接收 到 被 捕获 的 信号 后 ， 将 在 该 线程 中 运行 信号 处 理 程序 。 同 时 ， 信 号 处 理 程序 
的 运行 中 被 临时 修改 的 内 容 就 是 该 线程 的 信号 屏 项。 回顾 可 知 ， 将 捕获 的 信号 传递 给 线程 的 
方式 有 两 种 : 一 种 是 先 传递 给 进程 ， 然 后 用 随机 选择 的 方式 传递 给 一 个 未 被 其 阻塞 的 线程 ， 
另 一 种 是 传递 给 一 个 指定 的 线程 。 

下 面 是 一 个 sa_flags 成 员 的 简单 标志 列表 。 注 意 ， 前 两 种 只 能 用 于 SIGCHLD 信 号 。 

SA_NOCLDSTOP 当 其 子 进程 停止 或 继续 时 不 产生 SIGCHLD 信 号 。 

SA_NOCLDWAIT 不 将 已 终止 的 子 进程 转换 为 僵尸 进程 ， 见 5.9 节 中 的 解释 。 将 SIGCHLD 
信和 号 明确 设置 为 STG_IGN， 具 有 同样 的 效果 。 

SA_NODEFER ”除非 信号 明确 包含 在 sa_mask 成 员 中 ， 否 则 不 要 将 信号 加 入 到 信号 处 理 
程序 入 口 的 信号 屏蔽 中 。 该 标志 仅 用 于 已 废弃 的 signal 函 数 ( 见 9.4 节 ) 的 实现 。 

SA_ONSTACK 如 果 另 一 个 可 选 的 信号 堆栈 已 经 通过 sigaltstack 进 行 声明 ， 则 将 信号 
传递 到 该 堆栈 。 见 9.3 节 。 

SA_RESETHAND 重 设 信号 动作 为 SIG_DFL， 并 在 进入 信号 处 理 程序 时 清除 
SA_SIGINF0 标 志 。 对 SIGILL 和 SIGTRAP 信 号 无 效 。 同时， 和 SA_NODEFER 标 志 的 行为 类 
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似 ， 它 仅 用 于 允许 signal 函 数 的 实现 。 

SA_RESTART 不 允许 信号 中 断 系 统 调用 ; 见 9.1.4 节 。 在 9.7.4 节 中 有 一 个 相关 示例 。 

SA_SIGINFO 使 用 sa_sigaction 成 员 代替 sa_handler 成 员 ; 见 9.5 节 。 

对 上 述 标志 进行 一 下 总 结 : 

。SA_NOCLDSTOP 和 SA_NOCLDWAIT 只 能 用 于 SIGCHLD 信 和 号 。 

。SA_NODEFER 与 SA_RESETHAND 可 以 和 一 种 已 废弃 的 、 不 可 靠 的 、 应 决 不 使 用 (除非 
做 9.4 节 中 的 练习 ) 的 信号 机 制 相 兼 容 。 

，SA_ONSTACK 只 用 于 非常 特殊 的 情况 。 

。SA_SIGINFO 用 于 实时 信号 选项 。 

。SA_RESTART 有 了 时 是 很 有 用 的 。 

总 结 一 下 动作 及 其 对 线程 的 影响 : 

* 信 号 的 动作 始终 是 基于 整个 进程 范围 的 ， 可 以 是 捕获 、 忽 略 、 终 止 、 停 止 或 继续 。 

。 信 号 屏蔽 是 基于 每 个 线程 的 。 

。 可 以 明确 设置 sigaction 来 捕获 和 忽略 信号 ; 如 果 动作 是 SIG_DFL， 就 可 以 捕获 、 忽 
略 、 终 止 、 停 止 或 继续 。 但 不 能 具体 选择 是 上 述 4 个 中 的 哪 一 个 〈 见 9.1.3 节 )。 

"忽略 、 终 止 、 停 止 和 继续 总 是 应 用 到 整个 进程 。 

。 被 捕获 的 信号 只 能 在 一 个 线程 中 运行 一 个 信号 处 理 程序 。 如 果 信 号 被 传递 给 进程 (而 不 
是 指定 的 某 个 线程 )， 同 时 如 果 有 多 个 拥有 该 信号 的 线程 都 未 阻塞 ， 则 信号 传递 到 哪个 
线程 完全 是 随机 的 。 

下 面 给 出 一 个 忽略 SIGINT 和 SIGQUIT 信 号 的 函数 作为 示例 。 它 被 6.4 节 中 的 shell 调 用 :; 

static struct sigaction entry_int, entry_quit; 

static bool ignore_sig(void) 

: static bool first = true; 

struct sigaction act_ignore; 
memset (&act_ignore, 0, sizeof (act_ignore)); 
act_ignore.sa_handler = SIG_IGN; 
if (first) ( 
first = false; 
ec_negl( sigaction(SIGINT, &act_ignore, &entry_int) ) 
ec_negl( sigaction(SIGQUIT, &act_ignore, &entry_quit) ) 
et 
ec_negl( sigaction(SIGINT, &act_ignore, NULL) ) 
ec_negl( sigaction(SIGQUIT, &act_ignore, NULL) ) 
oe true; 
EC_CLEANUP_BGN 
return false; 

EC_CLEANUP_END 
} 

注意 静态 的 boo1 变 量 Eirst ， 它 用 来 保证 对 每 个 信号 只 在 第 一 次 调用 sigaction 的 时 

候 捕 获 原始 的 动作 。 


以 下 是 一 个 伴随 函数 ， 用 来 将 动作 恢复 到 在 调用 ignore_sig 之 前 的 状态 : 


static bool entry_sig(void) 
{ 
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ec_negl( sigaction(SIGINT, kentry_int, NULL) ) 
ec_negl( sigaction(SIGQUIT, &entry_quit, NULL) ) 
return true; 

EC_CLEANUP_BGN 
return false; 

EC_CLEANUP_END 

} 


9.1.7 信号 处 理 程序 


在 调用 sigaction 为 某 个 信号 安装 了 信号 处 理 程序 之 后 ， 当 捕获 的 信号 传递 后 ， 该 信号 
处 理 程序 就 会 被 调用 。 除 非 已 设置 了 SA_NODEFER (这 很 不 常见 )， 否 则 当 信号 处 理 程序 运行 
时 ， 捕 获 的 信号 将 被 阻塞 。 另 外 ， 在 sigaction 结 构 的 sa_mask 成 员 中 设 定 的 任何 信号 也 
会 被 阻塞 。 当 信号 处 理 程序 返回 时 ， 即 使 已 经 在 信号 处 理 程序 运行 时 明确 修改 了 的 临时 屏蔽 
(通过 调用 pthread_sigmask 或 sigprocmask)， 也 会 恢复 原先 的 屏蔽 。 

那么 ， 在 捕获 了 一 个 信号 之 后 该 如 何 处 理 呢 ? 这 取决 于 它 是 什么 类 型 的 信号 以 及 它 产生 
的 原因 : 

* 在 内 核 检测 到 错误 时 ， 可 能 会 产生 信号 。 例 如 SIGFPE (算法 错误 ) 或 SIGPIPE (对 不 

存在 读者 的 管道 写 人 )。 你 可 能 需要 显示 或 记录 错误 信息 并 终止 线程 或 进程 。 由 于 某 些 
信和 号 的 计算 状态 是 不 确定 的 ， 所 以 从 处 理 程序 返回 可 能 不 是 一 个 好 主意 。 同 时 ， 对 于 硬 
件 产生 的 错误 ， 如 SIGFPE， 如 果 返 回 ， 进 程 可 能 会 被 终止 ， 如 9.1.3 节 中 所 述 。 

。 用 户 的 某 些 操作 可 能 会 产生 信号 ， 例 如 按 下 Ctrl-c 通 常会 产生 一 个 SIGINT 信 号 。 可 能 
需要 在 执行 清理 后 终止 程序 ， 或 者 需要 停止 运算 (如 数据 库 查询 ) 并 返回 到 用 户 提示 。 
这 只 是 些 例子 一 一 实际 处 理 内 容 是 和 应 用 高 度 相关 的 。 

* 信 号 可 能 是 应 用 程序 设计 的 一 部 分 。 例 如 给 某 进程 发 送 一 个 SIGUSR1 信 号 来 表示 数据 

文件 已 准备 就 绪 。 

。 定 时 器 可 能 会 超时 。 

无 论 做 什么 ， 都 必须 考虑 以 下 两 点 : 

1) 改变 应 用 程序 状态 的 信号 处 理 程序 中 需要 做 哪些 工作 ， 以 便 使 应 用 程序 知道 该 信号 发 
生 了 。 

2) 从 信号 处 理 程序 出 发 要 到 何 处 去 。 备 选 方案 包括 从 处 理 程序 返回 、 终 止 程序 、 全 局 跳 
转 到 程序 的 其 他 部 分 或 产生 另 一 个 信号 。 

在 信号 处 理 程序 中 ， 所 使 用 的 系统 调用 或 标准 函数 必须 严格 限制 在 那些 能 调用 的 范围 内 ， 
因为 信号 可 能 发 生 在 某 个 不 能 安全 地 重新 进入 的 地 方 。 事 实 上 ，SUS (第 3 版 ) 仅 定义 了 116 
个 所 谓 的 异步 信号 安全 (async-signal-safe) 函数 ， 如 表 9-1 所 示 。 

一 般 而 言 ， 调 用 较 高 层 的 函数 是 不 安全 的 ， 例 如 库 中 的 函数 甚至 自己 应 用 程序 中 的 函数 。 
因为 一 般 不 能 明确 了 解 它 会 完成 怎样 的 工作 ， 尤 其 是 在 它 经 过 长 时 间 发 展演 变 之 后 。 甚 至 不 
能 调用 printf， 这 就 是 在 本 章 开头 的 例子 中 不 使 用 它 而 使 用 write 的 原因 。 

还 有 更 精 的 限制 : 也 不 能 安全 地 引用 全 局 变量 ， 除 非 它 是 volatile sig_atomic_t 
类 型 的 。 

从 技术 角度 上 说 ， 如 果 知 道 不 会 中 断 不 安全 ( 非 异 步 信号 安全 ) 的 函数 ， 那 么 在 处 理 程 
序 中 调用 不 安全 的 函数 或 引用 不 安全 的 存储 器 是 可 行 的 。 但 应 该 知道 这 只 用 于 不 常见 的 环境 
中 ， 这 种 编程 方式 是 不 明智 的 。 最 好 限制 自己 使 用 上 表 中 列 出 的 那些 函数 ， 并 将 全 局 变量 的 
类 型 改 为 volatile sig_atomic_t. 
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表 9-1 异步 信号 安全 函数 


accept getppid sigdelset 
access getsockname sigemptyset 
aio_error getsockopt sigfillset 
aio_return getuid sigismember 
aio_suspend kill signal 

alarm link sigpause 
bind listen sigpending 
cfgetispeed lseek sigprocmask 
cf£getospeed lstat sigqueve 
cfsetispeed mkdir sigset 
cfsetospeed mkfifo sigsuspend 
chdir open sleep 

chmod pathconf socket 

chown pause socketpair 
clock_gettime pipe stat 

close poll symlink 
connect posix_trace_event sysconf 

creat pselect tedrain 

dup raise teflow 

dup2 read teflush 
execle readlink tegetattr 
execve recv tegetpgrp 
_exit/_Bxit recvfrom tesendbreak 
fchmod recvmsg tesetattr 
fchown rename tesetpgrp 
fent1 rmdir time 
fdatasyne select timer_getoverrun 
fork sem_post timer_gettime 
fpathconf send timer_settime 
fstat sendmsg time: 

faync sendto umask 
ftruncate setgid uname 
getegid setpgid unlink 


geteuid setsid utime 
getgid setsockopt wait 


getgroups setuid waitpid 
write 


getpeername shutdown 
getpgrp sigaction 
getpid sigaddset 


看 来 整个 状况 都 充满 了 风险 ， 事 实 也 确实 是 这 样 的 。 下 面 给 出 一 些 建 议 ， 可 以 使 你 保持 


头脑 清楚 ， 使 程序 可 靠 : 
。 先 显示 某 个 错误 (使 用 write 或 其 他 安全 函数 ) ， 然 后 执行 _exit 退 出 的 信号 处 理 程序 
是 正确 的 。 
。 如 果 已 经 为 信号 设置 了 SA_RESTART 标 
sig_atomic_t 并 返回 是 正确 的 。 











那么 将 标志 类 型 设 为 volatile 
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“避免 使 用 信号 处 理 程序 是 最 佳 选 择 。 取 而 代 之 ， 可 以 使 用 线程 和 sigwait (参见 9.2 节 )。 

事实 上 ， 读 到 这 里 ， 你 可 能 已 经 决定 采用 最 后 一 条 建议 了 ! 但 是 ， 即 使 不 用 信号 处 理 程 
序 ， 信 号 还 是 很 有 用 的 ， 因 为 有 两 种 不 用 信号 处 理 程序 就 能 完全 安全 地 处 理 信号 的 方法 : 其 
一 是 sigsuspend ( 见 9.2.3 节 )， 其 二 是 sigwait ( 见 9.2.2 节 )， 后 者 是 更 好 的 选择 。 

在 本 节 结 束 之 前 ， 再 举 一 个 例子 。 它 展示 的 是 一 个 完全 合法 的 信号 处 理 程序 ， 作 用 是 对 
到 达 的 信号 进行 记录 然后 返回 。 即 使 指定 了 SA_RESTART，sleep 也 还 是 会 被 中 断 ， 因 为 它 
不 受 SA_RESTART 标 志 的 影响 。 


static volatile sig_atomic_t gotsig = -1; 


static void handler (int signum) 
t 

gotsig = signum; 
) 


int main(void) 


{ 
struct sigaction act; 
time_t start, stop; 


memset (fact, 0, sizeof(act)); 
act.sa_handler = handler; 
act.sa_flags = SA_RESTART; 
ec_negi( sigaction(SIGINT, &act, NULL) ) 
printf ("Type Ctrl-c in the next 10 secs.\n"); 
ec_negl( start = time(NULL) ) 
sleep(20); 
ec_negl( stop = time(NULL) ) 
printf ("slept for 81d secs\n*, (long) (stop - start)); 
if (gotsig > 0) 

printf("Got signal number #1d\n", (long)gotsig); 
else 

printf("Did not get signal\n"); 
exit (EXIT_SUCCESS) ; 


EC_CLEANUP_BGN 

exit (EXIT_FAILURE) ; 
EC_CLEANUP_END 
d 


我 在 看 到 第 一 行 后 就 按 下 了 Ctrl-c， 输 出 结果 如 下 : 


Type Ctrl-c in the next 10 secs. 
Slept for 4 secs 
Got signal number 2 


9.1.8 信和 号 处 理 的 底线 

即使 决定 了 不 使 用 信号 处 理 程序 ， 但 为 了 防止 应 用 程序 被 用 户 意 外 终止 ， 通 常 也 还 是 需 
要 进行 最 小 限度 的 信号 处 理 。 同 样 ， 如 果 由 于 存在 诸如 引用 无 效 存储 器 [“segmentation 
violation”( 段 冲突 ) ] 之 类 的 bug 而 使 得 程序 不 正常 终止 ， 是 很 不 专业 的 。 更 好 的 做 法 是 捕获 
信号 、 记 录 问 题 和 通知 用 户 〈 采 用 比 “ 程 序 因 段 冲 突 中 断 ” 更 详细 的 信息 ， 或 者 由 shell 来 决 


定 显示 的 内 容 )。 
因此 ， 对 大 多 数 应 用 程序 而 言 ， 至 少 都 需要 进行 以 下 工作 : 
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“程序 一 旦 开始 ， 就 立即 阻塞 所 有 信号 ， 像 这 样 : 


sigset_t set; 


ec_negi( sigfillset(&set) ) 
ec_negl( sigprocmask(SIG_SETMASK, &set, NULL) ) 


(如 果 有 多 个 线程 ， 则 可 以 使 用 pthread_sigmask。) 
“将 所 有 不 想 捕获 的 键盘 产生 的 信号 设置 成 包 略 ， 如 SIGINT。 
* 捕 获 STGTERM 信 号 ， 当 其 到 达 时 执行 清理 并 终止 ， 就 像 系 统管 理 员 关闭 进程 时 的 标准 


做 法 一 样 。 
* 捕获 所 有 错误 产生 的 信号 ， 当 其 中 某 个 信号 到 达 时 进行 显示 并 /或 记录 错误 。 
。 忽 略 SIGPIPE 信 号 ， 使 得 在 写 入 空 管道 时 write 返回 一 个 错误 。 这 上 比 收 到 一 个 信号 更 


方便 。 
。 调 用 sigemptyset 和 sigprocmask (或 pthread_sigmask) 对 所 有 信号 解除 阻塞 。 


在 应 用 程序 的 开头 可 以 调用 以 下 函数 ， 来 进行 最 小 化 的 信号 处 理 : 


static bool handle_signals (void) 
{ 

sigset_t set; 

struct sigaction act; 


ec_negl( sigfillset(&set) ) 
ec_negl( sigprocmask(SIG_SETMASK, &set, NULL) ) 
memset (&act, 0, sizeof(act)); 
ec_negl( sigfillset(&act.sa_mask) ) 
act.sa_handler = SIG_IGN; 
ec_negl( sigaction(SIGHUP, &act, NULL) ) 
ec_negl( sigaction(SIGINT, &act, NULL) ) 
ec_negl( sigaction(SIGQUIT, &act, NULL) ) 
ec_negl( sigaction(SIGPIPE, &act, NULL) ) 
act.sa_handler = handler; 
ec_negl( sigaction(SIGTERM, &act, NULL) ) 
ec_negl( sigaction(SIGBUS, &act, NULL) ) 
ec_negl( sigaction(SIGFPE, &act, NULL) ) 
ec_negl( sigaction(SIGILL, &act, NULL) ) 
ec_negl( sigaction(SIGSEGV, &act, NULL) ) 
ec_negl( sigaction(SIGSYS, &act, NULL) ) 
ec_negl( sigaction(SIGXCPU, &act, NULL) ) 
ec_negi( sigaction(SIGXFSZ, &act, NULL) ) 
ec_negl( sigemptyset (&set) ) 
ec_negl( sigprocmask(SIG_SETMASK, &set, NULL) ) 
return true; 

EC_CLEANUP_BGN 
return false; 

EC_CLEANUP_END 

2 


以 下 是 实际 的 处 理 程序 及 其 调用 的 两 个 支持 函数 : 


static void handler(int signum) 
{ 
int i; 
struct { 
int signum; 
char *msg; 
} sigmsg[] = { 
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SIGTERM, "Termination signal" }, 

SIGBUS, “Access to undefined portion of a memory object" }, 
SIGFPE, "Erroneous arithmetic operation" }, 

SIGILL, "Illegal instruction" }, 

SIGSEGV, “Invalid memory reference” }, 

SIGSYS, "Bad system call* }, 
SIGXCPU, “CPU-time limit exceeded” 
SIGXFSZ, "File-size limit exceeded" }, 
0, NULL} 





Y 


clean_up(); 
for (i = 0; sigmsg[i].signum > 0; i++) 
if (sigmsg[i].signum == signum) { 
(void)write(STDERR_FILENO, sigmsg[i].msg, 
strlen_safe(sigmsg[i] .msg) ) 7 
(void)write(STDERR_FILENO, *\n", 1); 
break; 





} 
exit (EXIT_FAILURE) ; 
) 


static void clean_up(void) 
{ 
io 
Clean-up code goes here -- 
must be async-signal-safe. 
LS § 
) 


static size_t strlen_safe(const char *s) 





这 个 办 法 就 是 将 clean_up 的 内 容 替 换 成 应 用 程序 需要 的 代码 。 听 上 去 真 可 笑 ， 标 准 的 
strlen 并 不 在 异步 信号 安全 函数 的 列表 中 ， 因 此 我 编写 了 自己 的 strlen 版 本 。 同 样 的 原因 ， 
在 处 理 程序 中 使 用 write 代替 fprintf。 还 要 注意 的 是 ， 使 用 的 是 _exit 而 不 是 exit 一 一 如 
5.7 节 中 所 述 ， 加 下 划 线 版 中 跳 过 了 对 atexit 的 调用 并 刷新 了 标准 C 的 IO 缓冲 区 ， 这 是 使 异 
步 信号 安全 正常 退出 的 唯一 办 法 。 


9.1.9 人 工 产生 信和 号 


如 9.1.3 节 所 述 ， 每 个 可 以 自然 产生 的 信号 ,也 可 以 由 调用 kill、 killpg、 pthread_kill, 
abort、raise 或 sigqueue ( 见 9.5.4 节 ) 显 式 地 产生 : 


kill 一 一 为 进程 产生 信号 
#include <signal.h> 
int kill( 


pid t pid, /* process ID or other specification */ 
int signum /* signal */ 





de 
/* Returns 0 on success or -1 on error (sets errno) */ 
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killpg 一 一 为 进程 组 产生 信号 
#include <signal.h> 
int killpg( 
/* process-group ID */ 
/* signal * 


ve 
/* Returns 0 on success or -1 on error (sets errno) */ 


pthread_kill 一 一 为 线程 产生 信和 号 
#include <signal.h> 
int pthread_kill( 


pthread_t thread_id, /* thread ID */ 
int signum /* signal */ 


) 7 
/* Returns 0 on success, error number on failure (errno not set) */ 


abort 一 一 产生 SIGABRT 
#include <stdlib.h> 


void abort (void) ; 
/* Does not return */ 


raise 一 一 为 线程 产生 信号 
#include <signal.h> 


int raise( 
int signum /* signal */ 


) 了 
/* Returns 0 on success or non-zero on error (sets errno) */ 





错误 命名 的 ki11 系 统 调用 可 以 向 一 个 或 更 多 个 具有 给 其 发 送信 号 权限 的 进程 发 送 任何 信 
号 ， 而 不 仅仅 是 STGKILL。 如 果 进 程 由 超级 用 户 运行 ， 或 者 发 送 进程 的 实际 用 户 ID 或 有 效用 
户 ID 和 接收 进程 的 实际 用 户 ID 或 保存 的 set-user-ID 相 符 ， 那 么 就 会 拥有 该 权限 。 信 号 将 发 送 
给 哪个 进程 ， 取 决 于 pid 参 数 : 

>0 ”进程 ID 为 pid 的 进程 。 

0 进程 组 ID 和 发 送 进程 相同 的 进程 组 。 

<-1 进程 组 ID 和 pid 绝 对 值 相同 的 进程 组 。 

-1 ”发 送 者 拥有 权限 的 所 有 进程 ， 由 实现 定义 的 系统 进程 集合 除外 。 

如 果 signum 为 0， 则 kil11 仅 测试 其 pid 参 数 的 有 效 性 。 这 是 一 种 检测 进程 或 进程 组 是 否 
存活 的 方法 。 如 果 发 送 进程 没有 发 送信 号 的 权限 ， 那 么 调用 会 失败 ， 但 ezzno 值 会 表明 进程 
或 进程 组 是 否 存活 : 如 果 pid 不 存在 ， 则 其 值 为 ESRCH; 如 果 它 存活 但 发 送 者 没有 权限 ， 则 
其 值 为 EPERM。 

kil11pg 是 一 个 完全 没 必要 存在 的 系统 调用 ， 仅 对 进程 组 ID 是 pgrp 的 进程 组 发 送信 号 ， 
因此 它 相当 于 : 

kill(-pgrp, signum); 

pthread_kill 和 kil1 类 似 , 但 它 只 向 thread_id 线 程 发 送信 号 ， 该 线程 必须 和 发 送 
线程 处 于 同一 进程 。 它 不 像 Xi11 对 进程 那样 拥有 广播 能 力 。 请 小 心 使 用 pthread_kill 一 一 
记 住 终止 、 停 止 和 继续 信号 总 是 会 影响 整个 进程 。 因 此 ，pthread_ki1l1 只 在 完成 捕获 信号 
工作 时 和 你 的 期 望 相 一 致 。 如 果 你 运行 
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pthread_kill(tid, SIGKILL); 

则 进程 会 被 终止 ， 而 不 仅仅 是 tid 线 程 。( 应 该 使 用 pthread_cance1 来 终止 单个 线程 。) 

abort 和 带 有 一 个 SIGRABRT 参 数 的 kil1 几 乎 相同 ， 但 除非 捕获 信号 ， 并 且 信 号 处 理 程 
序 不 会 返回 (例如 调用 siglongjmp 或 _exit)， 否 则 会 终止 进程 ， 就 像 执行 了 SIGABRT 的 
默认 行为 ，abort 从 来 不 会 返回 。 例 如 : 如 果 使 用 sigaction 将 SIGABRT 置 为 SIG_IGN， 
则 abort 会 终止 进程 ， 而 

kill (getpid(), SIGABRT) 

则 不 起 作用 。 

raise 实 际 上 是 一 个 标准 的 C 函 数 ， 它 向 运行 它 的 线程 发 送信 号 。 就 是 说 ， 它 相当 于 : 

pthread_kill(pthread_self(), signum); 

然而 ， 即 使 在 POSIX 线 程 选项 不 被 支持 的 情况 下 ，raise 也 总 是 可 用 的 。 这 种 情况 下 ， 
它 相 当 于 : 


kill (getpid(), signum); 


.10 fork、pthread_create 和 exec 对 信号 的 影响 


三 个 用 于 设置 新 进程 、 线 程 或 程序 的 属性 的 线程 是 fork、pthread_create 或 exec': 

1) 信号 动作 : 在 执行 fork 之 后 ， 子 进程 将 继承 全 部 的 信号 动作 。 在 执行 exec 之 后 ， 被 
设置 成 STG_DFL 的 信号 将 保持 原样 ; 被 设置 成 SIG_IGN 的 信号 也 将 保持 原样 ， 除 了 
SIGCHLD ( 它 将 根据 实现 而 定 ) 被 设置 为 SIG_IGN 或 SIG_DFL; 已 捕获 的 信号 被 设置 为 
SIG_DFL。 由 于 所 有 的 动作 都 是 整个 进程 范围 的 ， 所 以 pthread_create 不 起 作用 。 

2) 信号 屏 项: 在 执行 fork 之 后 ， 从 父 线程 继承 ; 在 执行 exec 之 后 ,保持 父 线程 的 原 
样 ; 在 执行 pthread_create 之 后 ， 从 父 线程 复制 到 新 的 线程 。 

3) 挂 起 信号 : 在 执行 fork 之 后 清除 挂 起 信号; 在 执行 exec 之 后 ， 和 父 线程 相同 ; 在 执 
行 pthread_create 之 后 清除 挂 起 信号 。 

记 住 上 述 9 条 规则 (3 条 属性 乘 以 3 个 系统 调用 ) 的 最 简单 的 方法 是 : 区 别 就 是 如 果 是 复制 
或 继承 ， 属 性 就 未 经 更 改 。 因 此 只 需要 记 住 三 条 例外 ， 其 中 前 两 条 很 有 意义 : 

* 如 果 信 号 处 理 程序 消失 ， 就 像 对 exec 那 样 ， 捕 获 的 信号 必须 改 成 SITG_DFL。 

* 挂 起 的 信号 是 针对 每 个 进程 或 每 个 线程 的 ， 因 此 在 出 现 新 进程 或 新 线程 时 ， 要 将 它们 

清除 。 

。 和 加 强 移植 能 力 相 比 而 言 ， 标 准 制定 者 更 关心 的 是 不 要 打破 现存 的 实现 方式 ， 因 此 他 们 

对 SIGCHLD 表 示 不 满 。 


9.2 等 待 信号 
本 节 描 述 允许 进程 等 待 信号 传递 的 系统 调用 。 


9.2.1 pause 系 统 调用 


至 此 我 们 已 经 讲述 了 许多 系统 调用 ， 它 们 在 完成 某 些 动作 之 前 都 会 阻塞 对 某 事件 的 等 待 。 
例如 ， 当 读 取 终端 时 ，read 通 常 等 待 输入 一 个 整 行 。Pause 是 纯粹 的 等 待 : 它 不 做 任何 事情 ， 
也 不 等 待 任何 特殊 的 事情 。 


9. 
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pause 一 一 等 待 信号 


#include <unistd.h> 


int pause (void); 
/* Returns -1 on error (sets errno) */ 





由 于 已 传递 的 信号 会 中 断 大 多 数 被 阻塞 的 系统 调用 ， 因 此 也 可 以 说 pause 等 待 的 是 已 捕 
获 的 信号 。 如 果 信 号 捕获 函数 返回 ， 则 pause 会 返回 并 将 errno 置 为 EINTR， 但 因为 这 可 能 
是 pause 返 回 的 唯一 方式 ， 所 以 很 难 对 它 进行 测试 。 

通常 ， 可 使 用 更 完善 的 调用 如 sigwait 代 替 Pause。 


9.2.2 sigwait 系 统 调用 
和 pause 不 同 ，sigwait 能 让 你 选择 想 要 等 待 什么 。 你 不 需要 信号 处 理 程序 ， 因 为 当 它 
返回 时 ， 你 就 能 知道 到 达 的 是 什么 信号 : 


sigwait 一 一 等 待 信号 
#include <signal.h> 
int sigwait( 


const sigset_t ‘set, /* signals to wait for */ 
int *signum /* signal that was accepted */ 


) 
/* Returns 0 on success or error number on error */ 








参数 set 是 一 组 sigwait 所 要 等 待 的 信号 。 当 其 中 某 个 挂 起 时 ， 其 编号 将 通过 signum 参 
数 和 sigwait 的 返回 而 返回 。 如 果 在 调用 sigwait 时 一 个 或 更 多 信号 已 经 挂 起 ， 则 该 调用 会 以 
不 定 的 方式 选择 其 一 并 立即 返回 。sigwait 返 回信 号 的 术语 是 “已 接受 ”; 而 不 是 “已 传递 "。 

在 使 用 sigwait 时 ， 需 要 的 是 让 信号 保持 在 挂 起 状态 直到 sigwait 返 回 它 ; 而 不 是 想 让 
信号 被 传递 。 因 此 ， 需 要 阻塞 sigwait 正 等 待 的 信号 并 将 其 保持 在 阻塞 状态 。( 信号 的 生命 
周期 为 : 产生 一 挂 起 一 已 传递 ， 这 已 在 9.1.2 节 中 描述 过 了 .。) 

如 果 不 止 一 个 线程 在 使 用 sigwait 等 待 发 往 某 进 程 的 同一 个 信号 ， 那 么 只 有 一 个 线程 可 
以 获得 它 ， 其 选择 方法 是 不 定 的 。 如 果 信 号 被 发 往 某 个 指定 的 线程 ， 那 么 只 有 那个 线程 的 
sigwait (如 果 有 的 话 ) 可 以 返回 它 。 

典型 情况 下 ，sigwait 用 于 以 下 两 个 目的 之 一 : 

。 直 到 和 某 信号 关联 的 一 些 事件 发 生 后 ， 线 程 才能 继续 进行 的 情况 。 例 如 ， 当 某 消 息 到 达 

时 ， 一 个 线程 可 能 向 另 一 个 线程 发 送 SIGUSR1。 但 是 ， 通常 情况 下 ， 达 到 这 一 目的 的 

更 好 做 法 是 使 用 一 个 条 件 变量 ( 见 5.17.4 节 )。 本 节 的 后 面 有 一 个 示例 。 

。 在 某 线程 被 设计 用 来 处 理 信号 时 。 就 是 说 ， 使 用 等 待 线程 代替 信号 处 理 函 数 。 一 个 线程 

运行 sigwait ， 同 时 其 他 线程 都 在 等 待 该 信号 被 阻塞 。 但 这 只 在 信号 发 送 给 进程 时 有 

效 一 一 如 果 信 号 发 送 给 线程 ， 那 么 只 有 该 线程 的 sigwait 可 以 返回 它 。 

对 发 往 进程 的 信号 而 言 ， 使 用 sigwait 比 使 用 信号 处 理 函 数 更 好 ， 因 为 不 存在 信号 处 理 
程序 要 遵循 的 各 种 限制 。 当 sigwait 返 回 时 ， 可 以 自由 地 调用 任何 系统 调用 或 函数 ， 或 进行 
任何 能 在 线程 中 完成 的 其 他 工作 。 

9.1.8 节 中 给 出 过 一 个 handle_signals 函 数 ， 它 捕获 了 所 有 检测 出 的 错误 信号 (如 
SIGFPE、SIGSEGV)， 因 此 在 其 退出 前 可 以 调用 清理 函数 并 显示 详细 的 信息 。 下 面 让 我 们 重 
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写 该 函数 的 代码 ， 在 线程 中 使 用 sigwait 代 替 信 号 处 理 程序 : 
static bool handle_signals(void) /* do not use -- see below */ 
要 
sigset_t ‘set; 
struct sigaction act; 
pthread_t tid; 


ec_null( 
ec_negl( 


set = malloc(sizeof(*set)) ) 
sigfillset(set) ) 


ec_rv( pthread_sigmask(SIG_SETMASK, set, NULL) ) 


memset (&i 


act.sa_handler 


0, sizeof(act)); 


SIG_IGN; 


act, 





ec_negl( sigaction(SIGHUP, &act, NULL) ) 
ec_negl( sigaction(SIGINT, &act, NULL) ) 
ec_negl( sigaction(SIGQUIT, &act, NULL) ) 
ec_negl( sigaction(SIGPIPE, &act, NULL) ) 
ec_negl( sigemptyset (set) ) 

ec_negl( sigaddset (set, SIGTERM) ) 
ec_negl( sigaddset (set, SIGBUS) ) 
ec_negl( sigaddset (set, SIGFPE) ) 
ec_negl( sigaddset(set, SIGILL) ) 
ec_negl( sigaddset(set, SIGSEGV) ) 
ec_negl( sigaddset (set, SIGSYS) ) 
ec_negl( sigaddset (set, SIGXCPU) ) 
ec_negl( sigaddset (set, SIGXFSZ) ) 





ec_rv( pthread_sigmask(SIG_SETMASK, set, NULL) ) 
ec_rv( pthread_create(&tid, NULL, sig_thread, set) ) 
return true; 


EC_CLEANUP_BGN 

return falsi 
EC_CLEANUP_END 
) 





static void *sig_thread(void *arg) 
{ 


int signum; 
int i; 
struct { 
int signum; 
char *msg; 
) sigmsg[] = { 
{ SIGTERM, "Termination signal’ }, 
{ SIGBUS, "Access to undefined portion of a memory object" }, 
{ SIGFPE, "Erroneous arithmetic operation" }, 
{ SIGILL, "Illegal instruction" }, 
{ SIGSEGV, "Invalid memory reference" }, 
{ SIGSYS, "Bad system call" }, 
{ SIGXCPU, *CPU-time limit exceeded" }, 
{ SIGXFSZ, "File-size limit exceeded" }, 
{ 0, NULL) 
r 
while (true) { 


rv( sigwait((sigset_t *)arg, &signum) ) 

clean_up(); 

for (i = 0; sigmsg{i].signum > 0; i++) 

if (sigmsg[i}.signum == signum) { 
fprintf(stderr, *ts\n", sigmsgli].msg); 
break; 
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exit (EXIT_FAILURE) ; 
) 


return (void *)true; /* never get here */ 


EC_CLEANUP_BGN 
EC_FLUSH("sig_thread") 
return (void *) false; 

EC_CLEANUP_END 

} 


static void clean_up(void) 
{ 
z 
Clean-up code goes here -- 
need not be async-signal-safe. 
* 
) 
这 个 版 本 的 代码 和 9.1.8 节 中 的 代码 相 比 ， 具 有 如 下 优点 : 当 信号 被 sigwait 返 回 时 ， 因 
为 位 于 线程 而 非 信号 处 理 程序 中 ， 所 以 可 自由 地 调用 任何 系统 调用 或 喜欢 的 函数 一 一 而 不 必 
局 限 在 异步 信号 安全 函数 列表 中 。 注意 ，clean_up 函 数 中 的 注释 也 作 了 相应 的 改变 。 

该 版 本 代码 的 缺点 就 是 它 根 本 就 不 能 工作 ! 其 原因 有 两 条 ， 都 很 严重 : 

。 例 如 ， 如 果 某 个 其 他 的 线程 获得 了 SIGSYS ， 则 信号 将 被 送 往 该 线程 而 不 是 其 进程 ， 
sig_thread 函 数 中 的 sigwait 无 法 返回 它 。 事 实 上 ， 因 为 该 信号 在 所 有 线程 中 都 被 
阻塞 ， 所 以 它 将 会 被 永远 挂 起 。 因 此 ， 使 用 信号 处 理 程序 的 最 初版 本 ， 就 是 错误 检测 信 
号 应 该 采用 的 版 本 。 

。 如 果 硬 件 检测 信号 STGBUS、SIGFPE、SIGILL 和 SIGSEGV 中 的 一 个 在 阻塞 时 自然 发 
生 ， 则 其 结果 是 不 定 的 ( 见 9.1.3 节 )。 最 大 的 可 能 是 进程 被 立刻 终止 ， 因 此 sigwait 永 
远 没 有 返回 的 机 会 。 由 于 在 初始 化 设置 后 这 4 种 信号 都 是 未 阻塞 的 ， 所 以 这 在 信号 处 理 
程序 版 本 中 不 会 成 为 问题 。 

以 上 并 不 是 说 sigwait 是 没有 用 的 。 大 多 数 信号 ， 包 括 除 9.1.3 节 中 错误 检测 信号 组 以 外 

的 全 部 信号 ， 当 它们 自然 ( 即 不 是 由 pthread_ki1l1) 产生 时 都 会 被 送 往 进程 ， 因 此 线程 在 
sigwait 中 等 待 会 工作 得 非常 好 ， 并 且 是 一 种 比 信号 处 理 程序 要 好 得 多 的 选择 。 


9.2.3 sigsuspend 系 统 调用 


sigsuspend 是 一 种 比较 老 的 、 不 支持 多 线程 的 系统 调用 ， 也 用 于 等 待 信号 。 在 详细 讲 
述 之 前 ， 先 浏览 一 下 它 所 能 解决 的 问题 。 在 上 文 第 8 章 中 ， 一 直 在 使 用 这 样 一 个 示例 : 它 通过 
派生 来 产生 和 父 进程 的 socket 相 连接 的 进程 。 对 父 进程 而 言 ， 在 子 进程 连接 之 前 先进 行 socket 
绑 定 是 很 重要 的 。 为 此 在 示例 中 使 用 了 拙劣 的 技巧 : 使 子 进程 休眠 几 秒 ， 来 为 父 进程 提供 绑 
定 的 机 会 。 休 了 眼 是 不 可 靠 的 ， 不 仅 因为 无 从 知晓 这 几 秒 是否 够 用 ， 而 且 还 不 知道 它 是 不 是 太 
长 而 降低 了 效率 。 简 便 起 见 ， 下 面 给 出 一 个 具有 同样 问题 的 简化 示例 : 


void tryl(void) 
{ 
if (fork() == 0) { 
printf ("child\n"); 
exit (EXIT_SUCCESS) ; 
} 
printf ("parent\n"); 
return; 
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该 函数 显示 
child 
parent 


但 需要 父 进程 先 运行 ， 然 后 告知 子 进程 何 时 开始 进行 。 这 里 首先 尝试 将 它们 同步 ， 父 进程 向 
子 进程 发 送 STGUSR1 信 号 ， 子 进程 捕获 它 并 设置 一 个 变量 : 


static volatile sig_atomic_t got_sig; 
static void handler(int signum) 
{ 
if (signum == SIGUSR1) 
got_sig = 1; 
) 


void try2(void) 
{ 
pid_t pid; 


got_sig = 0; 
ec_negl( pid = fork() ) 
if (pid == 0) { 

struct sigaction act; 


memset (&act, 0, sizeof(act)); 
act.sa_handler = handler; 
ec_negl( sigaction(SIGUSR1, &act, NULL) ) 
while (got_sig == 0) 
if (pause() == -1 && errno != EINTR) 
EC_FAIL 
printf (*child\n"); 
exit (EXIT_SUCCESS) ; 
} 
printf (*parent\n"); 
ec_negi( kill(pid, SIGUSR1) ) 
return; 


EC_CLEANUP_BGN 
EC_FLUSH(*try2") 

EC_CLEANUP_END 

让 

处 理 程序 是 安全 的 一 它 只 是 设置 了 一 个 认可 类 型 的 变量 。 子 进程 在 循环 中 测试 该 变量 ， 
挂 起 并 等 待 信号 的 到 达 。(Pause 挂 起 见 9.2.1 节 ， 它 会 阻塞 直至 信号 到 达 。) 这 时 ,输出 的 次 
序 和 我 们 期 望 得 到 的 就 一 致 了 : 

Parent 

child 

但 还 存在 两 个 问题 : 

。 如 果 在 子 进程 有 机 会 安装 处 理 程序 之 前 就 将 SIGUSR1 传 递 给 它 ， 那 么 SIGUSR1 会 终止 

该 子 进 程 。 可 能 的 解决 方案 是 在 fork 之 前 就 安装 处 理 程序 ， 这 样子 进程 会 继承 它 ， 但 

这 只 在 父 进 程 与 子 进程 之 间 有 效 。 我 们 想 要 一 个 对 任意 需要 同步 的 进程 都 有 效 的 解决 

方案 。 

。 如 果 在 while 语 句 中 的 测试 和 pause 调 用 两 个 动作 之 间 传 递 SIGUSR1， 则 pause 将 会 

永远 等 待 下 去 ， 因 为 用 来 唤醒 它 的 信号 在 它 进入 休眠 之 前 就 早早 到 达 了 。 

下 面 尝试 通过 在 做 好 准备 之 前 阻塞 SIGUSR1 信 号 的 方法 来 解决 上 述 问题 : 
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void try3(void) 

{ 
sigset_t set; 
pid_t pid; 


got_sig = 0; 
ec_negl( sigemptyset (&set) ) 
ec_negl( sigaddset(&set, SIGUSR1) ) 
ec_negl( sigprocmask(SIG_SETMASK, &set, NULL) ) 
ec_negl( pid = fork() ) 
if (pid == 0) ( 
struct sigaction act; 
sigset_t suspendset; 


memset (&act, 0, sizeof(act)); 
act.sa_handler = handler; 
ec_negl( sigaction(SIGUSR1, &act, NULL) ) 
ec_negl( sigfillset(&suspendset) ) 
ec_negl( sigdelset (&suspendset, SIGUSR1) ) 
ec_negl( sigprocmask(SIG_SETMASK, &suspendset, NULL) ) 
while (got_sig == 0) 
if (pause() == -1 && errno != EINTR) 
EC_FAIL 

printf (*child\n"); 
exit (EXIT_SUCCESS) ; 

未 

printf (*parent\n"); 

ec_negl( kill(pid, SIGUSR1) ) 

return; 


EC_CLEANUP_BGN 
EC_FLUSH (*try3*) 

EC_CLEANUP_END 

) 


这 种 方法 能 够 彻底 解决 第 一 个 问题 。 由 于 阻塞 了 SITGUSR1， 所 以 直到 处 理 程序 安装 完毕 
后 它 才能 到 达 。 但 第 二 个 问题 仍然 存在 ， 无 法 解决 。 虽 然 这 个 时 间 间 隔 很 小 ， 但 信号 仍 有 可 


能 在 测试 和 pause 之 间 到 达 。 
我 们 需要 找到 一 种 保持 信号 阻塞 直到 pause 开 始 的 方法 。 或 者 ， 换 句 话说 ， 需 要 取消 阻 


塞 并 使 pause 变 成 自动 的 。 而 这 正好 就 是 sigsuspend 所 能 完成 的 : 
sigsuspend 一 一 改变 信号 掩 码 并 等 待 信号 


#include <signal.h> 


int sigsuspend( 
const sigset_t *sigmask /* temporary signal mask */ 


de 
/* Returns -1 on error, always (sets errno) */ 





sigsuspend 用 sigmask 临 时 代替 了 线程 的 信号 屏蔽 ， 然 后 等 待 直到 某 个 动作 为 终止 
或 被 捕获 的 未 阻塞 信号 完成 传递 。 如 果 其 动作 是 终止 ， 则 进程 ( 记 住 ,不 仅仅 是 线程 ) 会 被 
终止 ，sigsuspend 并 不 返回 。 如 果 是 被 捕获 ， 并 且 信 号 处 理 程序 返回 ， 则 会 恢复 原先 的 信 
号 屏蔽 ， 同 时 sigsuspend 会 返回 一 个 错误 。 通常 ， 这 个 错误 只 是 EINTR; 就 是 说 ， 当 
errno 或 BINTR 的 返回 值 为 -1 时 ， 对 中 断 的 系统 调用 来 说 是 正常 的 (和 pause 类 似 ， 如 上 


例 所 示 )。 
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从 本 质 上 说 ， 在 所 有 情况 下 ， 传 递 给 sigsuspPend 的 屏蔽 对 在 调用 之 前 就 已 经 阻塞 的 一 
个 或 更 多 的 信号 具有 取消 阻塞 的 作用 ， 尽 管 实际 上 这 不 是 必要 条 件 。 这 只 是 一 个 细节 ， 对 此 
不 必 太 关注 。 

很 好 ， 这 种 方法 非常 完美 。 现 在 开始 解决 上 面 的 同步 问题 ， 只 需要 简单 地 将 pause 替换 
成 sigsuspend 就 可 以 了 。 不 再 需要 while 循 环 ， 因 为 现在 取消 信号 阻塞 和 挂 起 都 已 经 是 自 
动 的 了 。 

void try4 (void) 

{ 


sigset_t set; 
pid_t pid; 


ec_negi( sigemptyset (&set) ) 
ec_negl( sigaddset (kset, SIGUSR1) ) 
ec_negl( sigprocmask(SIG_SETMASK, &set, NULL) ) 
ec_negl( pid = fork() ) 
if (pid == 0) { 
struct sigaction act; 
sigset_t suspendset; 


memset (&act, 0, sizeof (act)); 
act.sa_handler = handler; 
ec_negl( sigaction(SIGUSR1, &act, NULL) ) 
ec_negl( sigfillset(&suspendset) ) 
ec_negl( sigdelset (&suspendset, SIGUSR1) ) 
if (sigsuspend(&suspendset) == -1 && errno != EINTR) 

EC_FAIL 

printf (*child\n"); 
exit (EXIT_SUCCESS) ; 

} 

printf (*parent\n"); 

ec_negl( kill(pid, STGUSR1) ) 

return; 


EC_CLEANUP_BGN 
EC_FLUSH(*try4") 

EC_CLEANUP_END 

H 


仍然 可 以 使 用 前 面 那个 设置 了 got_sig 变 量 的 处 理 函 数 ; 但是， 现在 已 经 不 再 需要 那个 
变量 了 ， 只 要 使 用 空 的 处 理 程序 就 行 了 : 

static void handler(int signum) 

) 

同时 , 也 不 需要 对 sigsuspend 返 回 的 代码 是 否 为 -1 进行 测试 了 ， 因 为 其 返回 值 总 是 -1。 
但 是 去 掉 它 会 显得 有 些 古 怪 ， 还 会 使 得 那些 恰好 不 知道 或 不 记得 sigsuspend 全 部 细节 的 读 
RIAR. 

注意 ， 由 于 在 执行 fork 之 前 STGUSR1 一 直 是 被 阻塞 的 ， 所 以 子 进程 继承 了 其 信号 屏蔽 。 
在 需要 同步 的 两 个 进程 没有 关系 时 ， 调 用 sigsuspend 的 进程 只 会 简单 地 执行 自己 的 阻塞 。 
实际 上 ， 这 只 是 那个 在 9.1.8 节 中 提 到 的 启动 每 个 应 用 程序 时 应 屏 殴 所 有 信号 的 一 般 性 建议 的 
一 个 特例 。 

另外 请 注意 ， 和 sigwait 不 同 ，sigsuspend 几 平 总 可 以 和 信号 处 理 程序 一 起 使 用 。 但 
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通常 处 理 程序 什么 也 不 干 ， 只 是 使 被 传递 的 信号 可 以 中 断 sigsuspPend。 

sigsuspend 和 sigwait 之 间 的 另 一 个 较 大 的 区 别 是 : 使 用 sigwait 时 ， 所 等 待 的 信号 
将 保持 被 阻塞 的 状态 。 事 实 上 ， 它 从 来 不 会 被 传递 一 而 是 sigwait 接 受 它 : 将 它 从 挂 起 的 
信号 集合 中 删除 并 返回 它 。 因 此 ， 在 使 用 sigwait 时 ， 并 不 存在 那个 sigsuspend 消 除 的 ， 
取消 信号 阻塞 和 等 待 信号 被 传递 之 间 的 竞争 条 件 ， 因 为 它 一 直 阻 塞 信号 。 所以， 上述 同 步 代 
码 还 可 以 进一步 简化 : 


void try5tvoia) 

{ 
sigset_t set; 
pid_t pid; 


ec_negl( sigemptyset (&set) ) 
ec_negl( sigaddset (&set, SIGUSR1) ) 
ec_neg1( sigprocmask(SIG_SETMASK, &set, NULL) ) 
ec_negl( pid = fork() ) 
if (pid == 0) ( 
int signum; 


ec_rv( sigwait(&set, &signum) ) 
printf ("child\n"); 
exit (EXIT_SUCCESS) ; 
) 
printf (*parent\n*); 
ec_negl( kill(pid, SIGUSR1) ) 
return; 


EC_CLEANUP_BGN 
EC_FLUSH(*try5") 

EC_CLEANUP_END 

} 


应 当 说 明 的 是 ， 使 用 管道 也 可 以 完成 父 进程 和 子 进程 之 间 的 同步 ， 并 完全 绕 过 了 使 用 信 
号 的 复杂 性 : 


void try6(void) 
{ 
int pfd(2]; 
pid_t pid; 


ec_negl( pipe(pfd) ) 
ec_negl( pid = fork() ) 
if (pid == 0) { 

char c; 


ec_negl( close(pfd{1]) ) 
ec_negl( read(pfd[0], &c, 1) ) 
ec_negl( close(pfd{[0]) ) 
printf (*child\n"); 
exit (EXIT_SUCCESS) ; 

$ 


printf ("parent\n"); 
ec_negl{ close(pfd{0]) ) 
ec_negl( close(pfa[1]) ) 
return; 


EC_CLEANUP_BGN 
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EC_FLUSH ("try6") 
EC_CLEANUP_END 
} 


在 该 例 中 ， 在 父 进程 关闭 管道 的 写 入 端 ， 使 得 子 进程 得 到 返回 值 0 之 前 ， 子 进程 一 直 阻塞 
在 read 中 。 


93 其 他 信号 系统 调用 
可 以 使 用 sigpending 来 找 出 挂 起 的 信号 ， 它 会 返回 一 组 处 于 挂 起 状态 的 信号 : 


sigpending 一 一 检查 未 决 信号 


#include <signal.h> 


int sigpending( 
pı oeet_t eset /* returned set of pending signals */ 


/* Returns 0 on success or -1 on error (sets errno) */ 





可 以 使 用 sigismember ( 见 9.1.5 节 ) 对 返回 集合 中 的 挂 起 信号 进行 测试 。 当 然 ， 除 非 
阻塞 了 信号 ， 否 则 在 测试 时 信号 可 能 已 经 不 处 于 未 决 状态 了 。 

回顾 9.1.6 节 可 知 ，SA_ONSTACK 标 志 使 得 信号 处 理 程序 可 以 在 另 一 个 可 选 的 堆栈 运行 。 
可 以 使 用 sigaltstack 来 管理 该 堆栈 : 


sigaltstack 一 一 设置 或 得 到 备用 栈 上 下 文 
Hinclude <signal.h> 
int sigaltstack( 


const stack_t *stack, /* new stack */ 
stack_t *ostack /* old stack */ 


yy 
/* Returns 0 on success or -1 on error (sets errno) */ 





请 参阅 系统 文档 或 SUS， 了 解 访 系统 调用 的 详细 信息 。 
同样 回想 可 知 ，SA_RESTART 标 志 阻 止 函数 被 信号 中 断 。 使 用 siginterrupt 时 ， 无 需 
调用 sigaction， 就 可 将 该 标志 开启 或 关闭 : 








siginterrupt 一 一 设置 或 清除 SA_RESTART 标 志 


#include <signal.h> 






int siginterrupt ( 
int signum, /* signal */ 
int flag /* non-zero to clear, zero to set */ 





) 
/* Returns 0 on success or -1 on error (sets errno) */ 


9.4 不 赞成 使 用 的 信号 系统 调用 


本 节 中 的 系统 调用 是 标准 化 过 的 ， 但 它们 并 没有 为 现存 的 系统 调用 增加 任何 的 功能 性 ， 
所 以 不 值得 花费 你 太 多 的 时 间 ， 除 非 为 了 完成 练习 9.4 和 练习 9.5。 
为 信号 设置 动作 的 典型 方法 是 使 用 signal 系 统 调用 : 
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signal 一 一 设置 信号 动作 


#include <signal.h> 


void (*signal( 


int signum, /* signal */ 
void (*act) (int) 7* new action */ 

) ) (int); 

/* Returns old action or SIG_ERR on error (sets errno) */ 





其 古怪 的 声明 意味 着 signal 返 回 一 个 动作 ， 它 可 以 是 一 个 指向 带 有 一 个 整数 参数 (信号 
编号 ) 的 void 函 数 的 指针 。 

在 使 用 signal 捕 获 信 号 时 存在 两 个 问题 : 

“* 在 传递 时 ， 动 作 被 设 为 其 默认 值 。 如 果 还 需要 捕获 它 ， 就 必须 再 次 调用 signal。 

* 已 传递 的 信号 不 会 被 阻塞 ， 因 此 ， 第 二 个 信号 的 到 达 会 终止 进程 。 

绕 过 这 些 问题 的 方法 是 使 用 sigaction ( 见 9.1.6 节 )， 忘 了 signal 吧 。 

有 5 个 系统 调用 可 以 提供 简化 的 信号 处 理 ， 但 应 当 避 免 使 用 它们 ， 因 为 它们 也 完成 不 了 那 
些 基本 函数 (如 sigaction) 做 不 好 的 事情 。 下 面 对 其 进行 简单 描述 。 

在 不 使 用 结构 的 情况 下 ， 可 以 使 用 sigset 为 信号 设置 sigaction 风 格 的 动作 : 


sigset 一 -设置 信号 动作 
#include <signal.h> 


void (*sigset ( 
int signum, /* signal */ 
void (*act) (int) /* new action */ 
) ) (int); 
/* Returns old action or SIG_ERR on error (sets errno) */ 





sigset 和 signal 调 用 一 样 简单 ， 但 它 具有 sigaction 的 行为 ， 即 在 处 理 函 数 运行 时 
屏蔽 了 已 传递 的 信号 ， 同 时 动作 不 发 生 改 变 。 另 外 ， 它 具有 一 个 新 的 动作 一 -SIG_HOLD， 
该 动作 只 是 将 信号 加 入 到 信号 屏蔽 中 去 。 和 sigaction 不 同 ， 如 果 调 用 没有 SIG_HOLD 动 作 
的 sigset， 那 么 伴随 它 将 发 生 这 样 的 情况 : 它 也 会 解除 信号 阻塞 (将 其 从 信号 屏蔽 中 
去 除 )。 

避免 使 用 sigset 及 伴随 它 的 其 他 相关 函数 的 主要 原因 是 : 掌握 sigaction 的 功能 就 已 
经 很 困难 了 ， 再 试图 学 会 其 他 几 种 不 同 的 功能 组 合 岂 不 是 难 上 加 难 。 少 才 是 好 ! 避免 使 用 它 
们 的 另 一 个 原因 是 : 它们 没有 在 多 线程 环境 中 定义 。 想 象 一 下 ， 如 果 已 经 在 单线 程 程序 中 使 
用 了 它们 ， 那 么 在 日 后 增加 多 线程 的 时 候 ， 会 遇 到 什么 样 的 问题 ! 

可 以 调用 sigrelse 来 直接 取消 信号 阻塞 (将 其 从 信号 屏蔽 中 去 除 ): 


sigrelse 一 一 解除 信号 阻塞 
#include <signal.h> 


int sigrelse( 
int signum, /* signal */ 


ve 
/* Returns 0 on success or -1 on error (sets errno) */ 





sigpause 是 sigsuspend 的 简化 版 本 ， 它 可 以 从 信号 屏蔽 中 去 除 一 个 信号 ， 并 挂 起 直 
到 某 信号 到 达 (任何 未 阻塞 的 信号 )， 然 后 恢复 原 屏蔽 : 


436 HIE 





sigpause 一 一 改变 信号 掩 码 并 等 待 信号 


#include <signal.h> 


int sigpause( 
int signum, /* signal */ 


t: 
/* Returns -1 on error, always (sets errno) */ 





最 后 ， 还 有 两 个 多 余 的 系统 调用 ， 因 为 它们 的 功能 和 带 有 SIG_HOLD 与 STG_IGN 动 作 的 
sigset 完 全 相同 : 


sighold 一 一 阻塞 信号 
#include <signal.h> 


int sighold( 
int signum, /* signal */ 


ye 
/* Returns 0 on success or -1 on error (sets errno) */ 


sigignore 一 一 忽略 信号 
#include <signal.h> 


int sigignore( 
int signum, /* signal */ 


); 
/* Returns 0 on success or -1 on error (sets errno) */ 





9.5 实时 信号 扩展 


在 所 谓 的 POSIX.4 (实时 ) 标准 中 包含 了 一 种 新 的 信号 机 制 一 一 实时 信号 扩展 (RTS), 
它 对 本 章 前 面 描述 的 信号 相关 的 系统 调用 的 进行 了 如 下 改进 : 

* 增 加 了 应 用 程序 信号 的 数量 ， 而 不 仅 限于 SIGUSR1 和 SIGUSR2。 

。 允 许 信号 排队 ， 因 此 在 同类 信号 挂 起 时 不 会 丢失 产生 的 信和 号。 

* 指 定 了 信号 传递 的 次 序 。 

* 在 信号 中 包含 了 附加 的 信息 ， 例 如 发 送 方 是 谁 ， 为 何 发 送 以 及 可 能 的 一 些 应 用 程序 数据 。 

新 功能 附加 在 了 原 有 的 功能 之 上 ， 因 此 仍然 可 以 使 用 28 种 典型 的 信号 ( 见 9.1.3 节 )， 包 括 
使 用 同样 的 处 理 程序 和 其 他 动作 ， 使 用 同样 的 同步 调用 (比如 ki11) 等 。 虽 然 在 许多 系统 中 
可 以 对 原 有 的 信号 使 用 新 的 RTS 功 能 (如 排队 、 传 递 值 )， 但 在 标准 中 对 此 没 做 说 明 ， 所 以 如 
果 需 要 移植 的 话 应 避免 这 样 做 。 

有 几 个 功能 测试 宏 ( 见 1.5.4 节 ) 可 以 检测 出 这 些 功 能 是 否 可 用 。 其 中 重要 的 是 
_POSIX_REALTIME_SIGNALS. 

本 节 中 的 各 个 小 节 将 详细 讨论 大 多 数 RTS 功 能 。 在 很 多 情况 下 ， 查 阅 使 用 RTS 信 号 机 制 来 
发 送信 号 的 函数 组 是 很 方便 的 。 在 下 一 节 中 将 列 出 那些 与 代码 SI_QUEUE、SI_TIMER、 
SI_ASYNCIO 和 SI_MESGQ 相 关 的 函数 。 本 书 将 该 组 函数 称 为 RTS 产 生 函 数 ( 这 是 本 书 作者 
为 其 命 的 名 ， 其 他 地 方 并 未 使 用 该 名 称 )。 

更 多 的 RTS 功 能 描述 见 9.7.5 节 和 9.7.6 节 。 


9.5.1 RTS 信 号 处 理 程序 
在 继续 阅读 之 前 ， 可 能 需要 回顾 一 下 9.1.6 节 中 关于 sigaction 的 讨论 。 
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如 果 在 传递 给 sigaction 的 结构 中 设 定 了 SA_SIGINFO 标 志 ， 那 么 可 以 使 用 
sa_sigaction 成 员 代替 sa_handler 成 员 来 保存 指向 信号 处 理 函 数 的 指针 。9S 它 并 不 是 一 
个 单纯 的 信号 编号 参数 ， 而 有 一 个 更 加 精心 设计 的 原型 : 

void rts_handler(int signum, siginfo_t *info, void *context); 

info 参 数 指向 的 是 siginfo_t 结 构 中 有 关 信 号 的 信息 ， 我 们 在 5.8 节 使 用 waitid 时 曾 
首次 使 用 过 该 结构 : 


siginfo_t 一 sigaction 的 结构 


typedef struct { 
int si_signo; signal number */ 


errno value associated with signal */ 
signal code (see below) 
sending process ID */ 
real user ID of sending process */ 
address of faulting instruction */ 

int si_status; * exit value or signal */ 

long si_band; /* band event for SIGPOLL */ 

union sigval si_value; signal value */ 

) siginfo_t; 


union sigval 一 一 信号 值 的 unione 


union sigval { 
int sival_int; /* integer signal value */ 
void *sival_ptr; /* pointer signal value */ 
vi 





成 员 si_signo 只 是 对 处 理 程序 中 signum 参 数 的 重复 。 

si_errno 的 用 法 取决 于 实现 ; 它 可 能 包含 一 个 表明 信号 起 因 的 错误 代码 。 

成 员 si_code 表 明了 信号 产生 的 原因 。 通 常 ， 如 果 它 是 0 或 负数 ， 则 说 明 信 和 号 来 自 于 某 个 
进程 ; 其 进程 ID 在 si_pid 中 ， 实 际 用 户 ID 在 su_uid 中 。si_code 成 员 可 以 取 下 列 值 之 中 
的 一 个 : 

SI_USER 由 kill 发 送 , 或 由 实现 随意 决定 ， 由 一 个 用 于 合成 信号 的 系统 调用 (如 
raise) 发 送 。 

SI_QUEUE 由 sigqueue 发 送 ( 见 9.5.4 节 )。 

SI_TIMER 定时 器 的 超时 时 间 ， 由 timer_settime 确 定 ( 见 9.7.6 节 )。 

SI_ASYNCIO 完成 异步 JO ( 见 3.9 节 )。 

SI_MESGQ 消息 的 到 达 ( 见 7.7 节 )。 

后 4 种 RTS 产 生 函 数 还 有 一 个 可 随 信号 一 起 发 送 的 值 ， 能 通过 si_value 成 员 进 行 访问 。 

如 果 si_code 是 正 的 ， 则 说 明 信 号 来 自 于 内 核 ， 而 代码 取决 于 信号 。 例 如 ， 如 果 信号 是 
SIGFPE， 则 如 果 整 数 被 零 除 ， 代 码 就 是 PPE_INTDIV; 如 果 整 数 游 出 ， 代 码 就 是 
FPE_INTOVF; 如 果 浮 点 数 被 零 除 ， 代 码 就 是 FPPE_FLTDIV。 有 关 SIGFPE 的 代码 和 其 他 信 
号 的 代码 的 完整 列表 ， 请 参见 [SUS2002] 或 所 使 用 的 系统 文档 。 此 外 ，5.8 节 中 列 出 了 
SIGCHLD 的 代码 。 


日 对 于 sa_sigaction 成 员 中 是 否 能 使 用 5IG_IGN 或 SIG_DFL，SUS 并 没有 明确 说 明 ; 为 安全 起 见 ， 仅 在 


sa_handler 中 使 用 它们 。 
© FreeBSD (可 能 还 有 其 他 系统 ) 将 成 员 定 义 成 了 sigval_int 和 sigval_ptr， 但 没有 声明 它们 支持 RTS. 


可 能 会 支持 吧 。 
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怎样 使 用 其 他 的 成 员 ， 是 由 信号 决定 的 。 其 中 有 关 SIGCHLD 的 内 容 在 5.8 节 中 。 对 于 
SIGILL 和 SIGSEGV， 成 员 si_addr 给 出 了 导致 问题 的 实际 机 器 地 址 。 对 于 SIGPOLL (和 


STREAMS 一 起 使 用 )， 成 员 si_band 指 明了 波段 事件 。 
以 下 是 一 个 程序 ， 当 设置 SA_SIGINFO 标 志 时 ， 它 可 以 显示 在 信号 处 理 程序 中 可 用 的 一 


些 附加 信息 : 


int main(void) 

{ 
struct sigaction act; 
union sigval val; 


memset (&act, 0, sizeof(act)); 

act.sa_flags = SA_SIGINFO; 

act.sa_sigaction = handler; 

ec_negl( sigaction(SIGUSR1, &act, NULL) ) 
ec_negl( sigaction(SIGRTMIN, &act, NULL) ) 
ec_negi( kill(getpid(), SIGUSR1) ) 
val.sival_int = 1234; 

ec_negl( sigqueue(getpid(), SIGRTMIN, val) ) 
exit (EXIT_SUCCESS) ; 


EC_CLEANUP_BGN 

exit (EXIT_PAILURE) ; 
EC_CLEANUP_END 
$ 


static void handler (int signum, siginfo_t *info, void *context) 
{ 





printf ("signal number: %d\n", info->si_signo); 
printf ("sending process ID: ld\n", (long)info->si_pid); 
printf(*real user ID of sending process: %ld\n", (long) info->si_uid); 
switch (info->si_code) ( 
case SI_USER: 
print€("Signal from user\n"); 
break; 
case SI_QUEUE: 
printf ("Signal from sigqueue; value = %d\n", 
info->si_value.sival_int) ; 
break; 
case SI_TIMER: 
printf("Signal from timer expiration; value = %d\n", 
info->si_value.sival_int) ; 
break; 
case SI_ASYNCIO: 
printf ("Signal from asynchronous I/O completion; value = @d\n", 
info->si_value.sival_int) ; 
break; 
case SI_MESGQ: 
printf ("Signal from message arrival; value = %d\n", 
info->si_value.sival_int); 
break; 





default: 
printf ("Other signal\n"); 
} 
了】 


将 以 上 代码 和 本 章 的 第 一 个 例子 相 比 ， 可 以 看 到 为 调用 sigaction 所 进行 的 设置 中 存在 
一 些 不 同 : 设置 了 SA_SIGINFO 标 志 ， 同 时 处 理 程序 的 成 员 是 sa_sigaction 而 不 是 
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sa_handler。 在 下 一 节 中 将 引入 SIGRTMIN 信 号 ; 但 现在 ， 为 方便 理解 代码 ， 请 把 它 看 作 
是 SIGUSR2。 

尽管 printf 不 是 异步 信号 安全 的 ， 但 在 处 理 程序 中 调用 printf 是 合法 的 ， 因 为 信号 的 
产生 者 是 异步 信号 安全 的 系统 调用 : killmsigqueue (将 会 在 9.5.4 节 中 讲 到 )。 

以 下 是 我 得 到 的 输出 结果 : 


signal number: 10 

sending process ID: 29501 

real user ID of sending process: 500 

Signal from user 

signal number: 32 

sending process ID: 29501 

real user ID of sending process: 500 

Signal from sigqueue; value = 1234 

信号 处 理 程序 的 第 三 个 参数 context 是 一 个 ucontext_t 类 型 对 象 的 指针 ， 指 向 描述 接 
收 进程 中 断 时 的 上 下 文 环境 。 该 指针 指向 的 不 是 ucontext_t 类 型 ， 而 是 void 类 型 ， 因 为 在 
该 原型 引入 时 ， 新 类 型 还 没有 标准 化 。 该 指针 通常 并 未 实现 而 且 很 少 使 用 ， 详 细 信 息 请 参见 


[SUS2002] 或 所 使 用 的 系统 文档 。 


9.5.2 RTS 信 号 


RTS 引 入 了 一 组 新 的 信和 号， 其 编号 范围 从 SIGRTMIN 到 SIGRTMAX， 其 中 至 少 
RTSIG_MAX 信 号 是 可 用 的 。 可 以 使 用 sysconf ( 见 1.5.5 节 ) 在 运行 时 获得 实际 可 用 的 数目 ， 
但 一 般 来 说 至 少 有 8 个 。( 这 是 作者 的 Solaris 版 本 中 的 实际 数目 ; 在 Linux 上 有 32 个 。) 

对 于 RTS 产 生 函 数 (在 9.5 节 开始 处 进行 了 定义 ) 而 言 ， 开 始 应 确定 所 需要 的 信号 ， 然 后 
选 出 一 个 RTS 信 号 ; 至 于 能 否 使 用 一 个 典型 的 信号 ， 是 由 实现 决定 的 。 

RTS 信 号 的 符号 只 有 两 个 一 一 第 一 个 和 最 后 一 个 ， 因 此 必须 使 用 诸如 SIGRTMIN、 
SIGRTMIN+1、…、SIGRTMAX 的 形式 来 引用 它们 。 当 然 ， 也 可 以 自己 定义 宏 ， 形 式 如 下 : 

#define DB_IO_DONE SIGRTMIN + 4 

唉 ，POSIX.4 小 组 并 没有 解决 两 个 库 都 使 用 相同 信号 的 问题 ， 因 此 请 务必 小 心 。 

SIGRTMIN 和 SIGRTMAX 并 不 必须 是 常 整数 表达 式 ， 因 此 ， 不 能 将 它们 轻易 地 用 作 case 
标签 或 用 于 预 处 理 程序 表达 式 (如 #if) 中 。 

如 果 不 止 有 一 个 RTS 信 号 (SIGRTMIN 到 SIGRTMAX) 处 于 挂 起 状态 ， 那 么 编号 最 小 的 信 
号 将 被 最 先 传递 。 因 此 可 以 认为 它们 具有 优先 次 序 ， 在 把 它们 分 派 给 不 同 应 用 目的 的 程序 时 ， 
可 能 需要 将 其 考虑 在 内 。 所 有 RTS 信 号 的 默认 动作 都 是 终止 。 


9.5.3 信号 队列 


一 般 来 说 ， 如 果 在 同类 信号 挂 起 时 产生 一 个 信号 ， 其 后 果 是 无 法 预料 的 。 例 如 ， 如 果实 
现 没 有 对 信号 排队 的 能 力 ， 而 仅 为 每 个 信号 保存 一 个 标志 ， 那 么 结果 只 会 是 丢弃 第 二 个 信号 。 
决 不 要 将 信号 用 于 计数 目的 ， 例 如 : 用 来 记 住 SIGUSR1 信 号 发 送 了 多 少 次 。 

但 在 使 用 RTS 时 ， 对 于 一 个 由 RTS 产 生 函 数 (在 9.5 节 开始 处 进行 了 定义 ) 发 送 的 RTS 信 号 
(SIGRTMIN 到 SIGRTMAX)， 如 果 使 用 sigaction 对 其 设置 SA_SIGINFO 标 志 ， 那 么 信号 将 
会 被 排 信 队列。 排队 是 否 也 对 典型 信号 有 效 ， 是 随 实现 而 定 的 ， 因 此 不 要 对 它 抱 什么 希望 。 
许多 系统 甚至 在 没有 设置 SA_SIGINFO 标 志 时 也 对 RTS 信 号 进行 排队 ， 虽 然 这 也 是 合法 的 ， 
但 如 果 要 保证 可 移植 性 ， 无 论 怎样 都 应 设置 这 一 标志 。 


440 FOIE 





如 果 需 要 排队 ， 但 你 又 不 想 使 用 信号 处 理 程序 ， 因 为 你 想 使 用 如 sigwait ( 见 9.2.2 节 ) 
这 样 的 函数 ， 那 么 也 许可 以 把 sigaction 结 构 中 的 sa_sigaction 成 员 设 为 SIG_DFL, 但 
SUS 对 此 并 没有 明确 说 明 。 安 全 起 见 ， 可 编写 一 个 空 的 处 理 程序 并 将 动作 指向 它 。 

一 个 进程 的 最 大 排队 长 度 至 少 是 32; 可 以 使 用 sysconf ( 见 1.1.5 节 ) 来 找 出 实际 的 限制 值 。 


9.5.4 sigqueue 


sigqueue 一 一 为 进程 产生 信号 


#include <signal.h> 


int sigqueue( 
pid_t pid, /* process ID */ 
int signum, /* signal */ 
const union sigval value /* value */ 


Ve 
/* Returns 0 on success or -1 on error (sets errno) */ 





在 9.5.1 节 的 例子 中 ， 已 经 见 到 了 对 sigqueue 的 使 用 。 前 两 个 参数 和 ki11 的 相似 ， 只 是 
pid 只 能 是 进程 ID 一 一 它 不 具有 ki11 的 广播 能 力 ( 如 发 送 给 所 有 的 进程 )。 另 外 ， 如 果 设 置 了 
SA_SIGINFO 标 志 ， 同 时 它 使 用 了 9.5.1 节 中 描述 的 三 参数 形式 ， 那 么 你 就 可 以 给 信号 处 理 程 
序 传递 一 个 能 接受 的 值 。 先 决定 是 使 用 int 还 是 使 用 该 union 的 指针 成 员 ; 处 理 程序 需要 知道 
使 用 了 哪 种 ， 因 为 在 传递 的 相关 信息 里 没有 包含 此 类 信息 。 

如 果 要 将 信号 发 送 到 另 一 个 进程 ， 也 许 不 能 使 用 指针 ， 它 对 另 一 个 进程 来 说 没有 任 
何 意义 。 唯 一 有 效 的 方法 是 ， 如 果 两 个 进程 共享 位 于 同一 位 置 的 存储 器 ， 那 么 指针 可 指向 共 
享 存储 器 。 

如 上 节 所 述 ， 如 果 设 置 了 SA_SIFINFO 标 志 ， 并 且 接 收 进程 已 经 有 一 个 signum 信 号 处 
于 挂 起 状态 ， 那 么 新 的 信号 将 被 排 人 队列 。 

你 只 能 对 RTS 信 号 ( 见 9.5.2 节 ) 进行 排队 和 传递 值 。 

如 上 节 所 说 ， 只 能 对 一 定数 量 的 信号 进行 排队 。 新 信号 如 果 不 能 排 人 队列 ，sigqueue 
将 返回 -1 并 将 errno 设 为 EAGAIN。 下 节 中 还 有 一 个 使 用 sigqueue 的 示例 。 





9.5.5 sigwaitinfo 和 sigtimedwait 


9.2.2 节 中 的 sigwait 不 属于 RTS， 但 它 也 能 很 好 地 处 理 RTS 信 号 ， 甚 至 能 对 它们 进行 排 
队 操 作 。 它 接受 某 个 挂 起 的 信号 并 返回 它 ; 如 果 还 有 挂 起 的 同类 信和 号， 它们 将 留 在 队列 中 。 
和 信号 处 理 程序 类 似 ， 如 果 挂 起 的 RTS 信 号 (SIGRTMIN 到 SIGRTMRX) 多 于 一 个 ， 那 么 拥有 


最 高 优先 级 (编号 最 小 ) 的 信号 将 会 最 先 被 接受 。 
但 使 用 sigwait 的 问题 在 于 不 能 获得 siginfo_t 信 息 ， 包 括 值 ， 后 者 可 能 是 最 重要 的 


RTS 功 能 。 因 此 ， 还 有 一 个 稍微 加 强 了 的 系统 调用 叫 作 sigwaitinfo: 


sigwaitinfo 一 一 等 待 信号 
#include <signal.h> 
int sigwaitinfo( 


const sigset_t *set, /* signals to wait for */ 
siginfo_t *info /* returned info */ 


ve 
/* Returns signal number or -1 on error (sets errno) */ 
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如 果 info 是 NULL ， 那 么 就 得 不 到 返回 信息 。 这 时 ， 除 了 信和 号 编号 是 作为 函数 值 返回 而 
不 是 通过 参数 返回 之 外 ，sigwaitinfo 和 sigwait 完 全 相同 。 如 果 info 是 非 NULL， 将 收 
到 一 个 和 9.5.1 节 中 描述 的 SA_SIGINFO 风 格 的 信号 处 理 程序 中 的 结构 类 似 的 结构 。 对 于 
sigwait， 必 须 保证 在 set 中 的 信号 已 被 阻塞 ; 否则 ， 当 其 中 的 某 个 被 传递 后 ， 将 发 生 不 可 
预期 的 事情 。 

这 里 有 一 个 使 用 排队 信号 的 例子 。 首 先是 两 个 将 要 使 用 的 RTS 信 号 的 定义 : 

#define MYSIG_COUNT SIGRTMIN 

#define MYSIG_STOP SIGRTMIN + 1 

下 面 是 线程 用 来 等 待 信号 的 函数 , 如 果 是 MYSIG_COUNT, 那么 就 将 其 值 作 为 字符 串 显示 ， 
如 果 是 MYSIG_STOP， 就 返回 (终止 该 线程 ): 

static void *sig_thread(void *arg) 

{ 


int signum; 
siginfo_t info; 


do ( 

signum = sigwaitinfo((sigset_t *)arg, &info); 

if (signum == MYSIG_COUNT) 
printf ("Got MYSIG_COUNT; value: %s\n", 

(char *)info.si_value.sival_ptr); 

else if (signum == MYSIG_STOP) { 
printf ("Got MYSIG_STOP; terminating thread\n"); 
return (void *) true; 





) 
else 
printf ("Got %d\n*, signum); 
} while (signum != -1 || errno == EINTR); 
EC_FAIL 





EC_CLEANUP_BGN: 
EC_FLUSH(*"sig_thread*) 
return (void *) false; 

EC_CLEANUP_END 

} 


注意 不 能 使 用 switch 语 句 ， 正 如 9.5.2 节 中 提 到 的 那样 ，MYSIG_COUNT 和 MYSIG_STOP 
可 能 是 非 固 定 的 整数 表达 式 。 
以 下 是 main 函 数 : 


int main(void) 

t 
sigset_t set; 
struct sigaction act; 
union sigval value; 
pthread_t tid; 


ec_negl( sigemptyset (&set) ) 

ec_negl( sigaddset (&set, MYSIG_COUNT) ) 

ec_negl( sigaddset (&set, MYSIG_STOP) ) 

ec_rv( pthread_sigmask(SIG_SETMASK, &set, NULL) ) 
memset (act, 0, sizeof(act)); 

act.sa_flags = SA_SIGINFO; 

act.sa_sigaction = dummy_handler; 

ec_negl( sigaction(MYSIG_COUNT, &act, NULL) ) 
ec_negl( sigaction(MYSIG_STOP, &act, NULL) ) 
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value.sival_ptr = "One"; 

ec_negl( sigqueue(getpid(), MYSIG_COUNT, value) ) 
value.sival_ptr = "Two"; 

ec_negl( sigqueue(getpid(), MYSIG_COUNT, value) ) 
value.sival_ptr = "Three"; 

ec_negi( sigqueue(getpid(), MYSIG_COUNT, value) ) 
value.sival_ptr = NULL; 

ec_negl( sigqueue(getpid(), MYSIG_STOP, value) ) 
ec_rv( pthread_create(&tid, NULL, sig_thread, &set) ) 
ec_rv( pthread_join(tid, NULL) ) 

exit (EXIT_SUCCESS) ; 


EC_CLEANUP_BGN 

exit (EXIT_FAILURE) ; 
EC_CLEANUP_END 
) 


static void dummy_handler(int signum, siginfo_t *info, void *context) 
{ 
} 


请 注意 ， 为 了 演示 排队 情况 ， 在 线程 创建 之 前 就 已 经 产生 了 4 个 信号 。 可 以 保证 
MYSIG_COUNT 信 号 会 在 MYSIG_STOP 信 和 号 之 前 被 接受 ， 因 为 它们 的 编号 更 小 。 同 时 ， 请 注 
意 信号 被 阻塞 并 且 保 持 该 阻塞 状态 。 由 于 必须 设置 SA_SIGINFO 标 志 来 允许 排队 ， 所 以 需要 
加 入 虚拟 的 处 理 程序 。 虽 然 在 Solaris 中 对 RTS 信 号 进行 排队 时 ， 加 入 和 不 加 入 虚拟 处 理 程序 都 
是 一 样 的 ， 但 在 可 移植 编程 时 不 要 心 存 侥幸 。 

以 下 是 和 输出， 证明 信 号 已 经 排队 : 


Got MYSIG_COUNT; value: One 

Got MYSIG_COUNT; value: Two 

Got MYSIG_COUNT; value: Three 

Got MYSIG_STOP; terminating thread 


如 果 只 需要 等 待 有 限 的 时 间 ， 可 以 使 用 sigtimedwait， 它 为 sigwaitinfo 添 加 了 一 
个 超时 参数 : 


sigtimedwait 一 一 等 待 信号 


#include <signal.h> 


int sigtimedwait ( 
const sigset_t *set, /* signals to wait for */ 


siginfo_t ‘info, /* returned info */ 
const struct timespec ‘ts /* max. time to wait */ 
) 
/* Returns signal number or -1 on error (sets errno) */ 





sigtimedwait 在 ts 指定 的 最 大 纳 秒 时 间 内 等 待 set 中 的 信号 变 为 挂 起 状态 并 返回 。 如 
果 超 时 ， 它 将 返回 -1 同时 将 errno 置 为 EAGAIN。 不 会 得 到 值 为 NULL 的 timeout。 如 果 
timespec 成 员 为 零 ， 同 时 set 中 没有 挂 起 的 信号 ， 那 么 sigtimedwait 将 立刻 返回 ， 但 实 
际 上 这 并 不 是 一 个 特例 一 因为 它 同样 超时 了 。 


9.5.6 sigevent 结 构 和 SIGEV_THREAD 


除 sigqueue 之 外 的 RTS 产 生 函 数 在 别处 都 已 经 描述 过 了 ， 如 9.5.1 节 列 出 的 ， 但 它们 都 使 
用 sigevent 结 构 来 指定 要 发 送 什么 信号 和 什么 值 。 下 面 专门 对 sigevent 结 构 进行 解释 。 
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struct sigevent 一 一 RTS 产 生 函 数 的 结构 


struct sigevent { 
int sigev_notify; /* notification type (see below) */ 
int sigev_signo; 7* signal number */ 


union sigval sigev_value; /* signal value */ 
void (*sigev_notify_function) (union sigval); /* thread function */ 
pthread_attr_t *sigev_notify_attributes; /* thread attributes */ 





要 被 发 送 的 信号 的 编号 (如 SIGRTMIN) 会 被 存 人 sigev_signo 中 ,伴随 的 值 会 被 存 人 
sigev_value 中 。 如 同 其 他 RTS 功 能 一 样 ， 它 仅 保证 对 RTS 信 号 有 效 。sigev_notify 成 员 
指定 信号 是 如 何 发 送 的 : 

SIGEV_SIGNAL ”产生 一 个 信号 ， 就 好 像 已 调用 了 sigqueue . 

SIGEV_THREAD ”开始 一 个 线程 ， 就 好 像 已 调用 了 pthread_create 

SIGEV_NONE 不 提供 任何 通知 ， 因 为 通知 通常 没有 多 大 意义 

其 中 ，SIGEV_THREAD 是 最 有 趣 的 。 当 事件 发 生 时 ， 它 都 会 启动 一 个 新 线程 。 每 次 启动 
新 线程 时 ，sigev_notify_function 指 向 的 函数 都 会 成 为 线程 的 启动 函数 。 通 常 ， 启 动 
函数 都 有 一 个 指向 void 的 指针 参数 ;而 在 本 情况 下 它 是 一 个 指向 union-sigval 的 指针 参 
数 。 这 或 多 或 少 是 一 样 的 ， 因 为 union 成 员 之 一 就 是 void 指针 。 可 以 使 用 sigev_notify_ 
attributes 成 员 设置 线程 的 属性 ， 但 不 能 使 线程 成 为 可 连接 的 。 如 果 该 成 员 为 NULL， 则 线 
程 默 认 会 被 断 开 ， 这 正和 pthread_create 的 作用 相反 。 

创建 线程 的 开销 很 大 ， 因 此 很 明显 ， 最 好 不 要 指定 SIGEV_THREAD， 除 非 发 生 相当 罕见 
的 事件 和 /或 事件 的 产生 意味 着 要 进行 大 量 的 工作 ， 并 和 启动 新 线程 的 成 本 相当 。 例 如 ， 在 每 
次 输入 到 达 时 都 启动 一 个 新 线程 可 能 就 有 些 过 分 了 。 

为 防止 发 生 混淆 ， 当 以 别 的 方式 产生 信号 时 创建 线程 ， 和 使 线程 在 sigwait 中 等 待 是 完 
全 不 同 的 。 二 者 的 所 有 共同 点 就 是 它们 都 使 用 线程 。 


9.6 全 局 跳 转 

通常 ， 函 数 仅 在 运行 return 语 句 时 ， 或 者 ， 如 果 是 void 函 数 则 在 运行 超出 其 外 部 块 底 
部 时 (和 前 者 同一 意思 )， 才 返回 到 它 的 调用 者 。 但 是 ， 使 用 标准 C 函 数 set jmp 和 longjmp， 
也 可 能 跳 转 到 程序 中 任意 的 (不 过 是 预先 计划 的 ) 一 点 : 


setjmp 一 一 设置 跳 转 点 
#include <setjmp.h> 


int setjmp( 
jmp_buf loc_info /* saved location information */ 
i 


/* Returns 0 if called directly, non-zero if from longjmp (no error 
return) */ 


longjmp 一 一 跳 到 跳 转 点 


#include <setjmp.h> 


void longjmp( 
jmp_buf loc_info, /* saved location information */ 
int val /* value for setjmp to return */ 


de 
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通过 调用 setjmp ， 可 以 标记 要 跳 转 到 的 位 置 ， 也 可 以 称 为 标签 ，set jmp 在 参数 中 保存 
了 所 有 它 所 需要 的 位 置信 息 (如 当前 堆栈 指针 、 机 器 地 址 )。 虽 然 其 参数 看 上 去 不 像 一 个 可 以 
接收 信息 的 指针 ， 但 它 确 实 是 。 然 后 ， 在 任意 一 个 函数 中 (不管 厂 套 的 有 多 深 )， 都 可 以 使 用 
相同 的 参数 运行 1ongjmp ， 效 果 就 像 是 set jmp 返 回 了 不 为 零 的 val; 如 果 val 为 零 ， 则 
setjmp 返 回 1。 

当 调 用 含有 longjmp 的 函数 时 ， 可 能 已 经 在 堆栈 中 压 入 了 数据 ， 但 longjmp 会 自动 将 它 
们 全 部 弹出 栈 。 而 含有 setjmp 的 函数 不 能 被 “调用 ”"， 并 且 在 返回 时 不 存在 递归 ， 即 使 可 能 
已 经 去 调用 longjmp 了 。 

下 面 是 一 个 例子 。 如 果 在 此 之 前 从 未 接触 过 set jmp 和 1longjmp， 可 能 会 认为 它 非常 古怪 : 


static jmp_buf loc_info; 


static void fcn2(void) 

$ 
printf ("In fcn2\n*); 
longjmp(loc_info, 1234); 
printf ("Leaving fcn2\n*); 


} 
static void fcn1 (void) 


printf ("In fcnl\n"); 
fen2(); 
printf ("Leaving fcnl\n"); 


int main(void) 
int rtn; 


rtn = setjmp(loc_info) ; 
printf("setjmp returned %d\n", rtn); 
if (rtn == 0) : 
fcn1(); 
printf ("Exiting\n"); 
exit (EXIT_SUCCESS) ; 
J 


输出 如 下 : 


setjmp returned 0 

In fcnl 

In fcn2 

setjmp returned 1234 

Exiting 

可 以 看 到 ，setjmp 被 调用 了 一 次 ， 却 返回 了 两 次 ,而且 从 fcn2 的 中 部 直接 跳 到 了 main 
的 中 部 ; 两 个 “Leaving” 行 都 未 被 输出 。 

如 果 没 有 完全 理解 也 不 必 担 心 ， 因 为 我 将 要 说 的 是 : 绝对 不 要 使 用 longjmp。 原 因 是 : 

* 当 堆栈 清空 后 ， 就 没 剩 下 什么 了 (如 分 配 的 内 存 、 打 开 的 文件 )。 

。 对 何 处 可 使 用 set jmp 和 1longjmp 有 一 些 限制 ， 如 果 忘记 了 这 些 限制 ， 就 会 带 来 麻烦 。 


HEA (包括 我 ) 不 喜欢 函数 中 存在 转向 (goto) 语句 。 他 们 更 不 喜欢 longjmp。 它 


会 使 得 程序 非常 难于 理解 和 维护 。 
。longjmp 主 要 用 于 从 信号 处 理 程序 中 跳 转 ， 但 它 不 是 异步 信号 安全 的 ， 因 此 除非 可 以 
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保证 信和 号 处 理 程序 是 被 异步 信号 安全 的 函数 调用 的 ， 例 如 在 同一 个 进程 内 运行 ki11 

( 见 9.1.7 节 )， 否 则 就 不 要 使 用 它 。 

如 果 你 认为 需要 使 用 Longjmp ， 那 么 可 能 的 原因 是 : 函数 设计 得 不 够 好 ， 不 能 使 函数 
(也 许 还 包括 一 条 错误 说 明 或 其 他 异常 情况 ) 返回 到 调用 者 。 再 加 把 劲 ， 你 就 会 有 所 发 现 。 

longjmp 可 能 会 也 可 能 不 会 恢复 信号 屏蔽 。 如 果 要 强制 其 恢复 ， 可 使 用 set jmp/longjmp 
的 变 体 ， 除 了 可 以 保存 和 恢复 信号 屏蔽 外 ， 它 们 和 原型 是 相同 的 : 


sigsetjmp 一 一 设置 跳 转 点 
#include <setjmp.h> 
int sigsetjmp( F y 
sigjmp_buf loc_info, /* saved location information */ 
int savemask /* non-zero to save signal mask */ 


i 
/* Returns 0 if called directly, non-zero if from siglongjmp (no error 


return) */ 


siglongjmp 一 一 跳 到 跳 转 点 ， 如 果 保存 的 话 恢复 信号 掩 码 


#include <setjmp.h> 


void siglongjmp( ‘ 
sigjmp_buf loc_info, /* saved location information */ 


int val /* value for sigsetjmp to return */ 
ve 





得 到 恢复 的 信和 号 屏蔽 ， 是 在 sigset jmp 被 调用 时 生效 的 那个 屏蔽 。 如 果 siglongjmp 在 
信号 处 理 程序 中 被 调用 ， 也 即 其 设计 原意 ， 那 么 信号 处 理 程序 要 恢复 的 那个 屏蔽 和 允许 正常 
返回 的 那个 屏蔽 可 能 是 不 同 的 。 

由 于 siglongjmp 和 1ongjmp 一 样 都 不 是 异步 信号 安全 的 , 通常 不 能 用 于 信号 处 理 程序 ， 


因此 它 的 恢复 信号 屏蔽 的 附加 能 力 几乎 毫 无 用 武之 地 。 
如 果 不 需 要 保存 信号 屏蔽 ， 同 时 由 于 某 些 原因 ， 你 不 想 只 是 将 sigsetjmp 的 savemask 
参数 置 为 零 ， 那 么 还 可 以 使 用 另外 一 对 函数 : 


_setjmp 一 一 设置 跳 转 点 


#include <setjmp.h> 











int _setjmp( 
i jmp_buf loc_info /* saved location information */ 

/* Returns 0 if called directly, non-zero if from longjmp (no error 
return) */ 









_longjmp 一 一 不 用 恢复 信号 掩 码 就 跳 至 跳 转 点 


#include <setjmp.h> 











void _longjmp( 
jmp_buf loc_info, /* saved location information */ 
int val /* value for setjmp to return */ 
) 









当然 ，_longjmp 也 不 是 异步 信号 安全 的 。 实 际 上 ， 这 两 个 加 下 划 线 的 函数 只 是 一 个 早 
期 标准 的 遗留 物 。 
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9.7 时钟 和 定时 器 
本 节 描 述 了 不 同 的 系统 时 钟 及 使 用 这 些 时 钟 在 预定 间隔 后 产生 信号 的 定时 器 。 


9.7.1 alarm 系 统 调用 


alarm 一 一 调度 一 个 alarm 信 号 


#include <unistd.h> 


unsigned alarm( 
unsigned secs /* seconds until signal */ 


Me 
/* Returns seconds left on previous alarm or zero if none (no error 
return) */ 





每 个 进程 都 有 一 个 为 alarm 系 统 调用 预 留 的 报警 时 钟 。 当 开始 报警 时 ， 会 发 送 一 个 
SIGALRM。 子 进程 继承 其 父 进 程 的 报警 时 钟 值 ， 但 实际 的 时 钟 并 不 共享 。 执 行 exec 后 ， 报 
警 时 钟 仍然 保持 其 设置 。 

alarm 按 照 secs 指 定 的 秒 数 来 设置 时 钟 。 返 回 前 一 设置 ; 如 果 时 钟 上 没有 以 前 保留 的 时 
间 ， 或 者 以 前 没有 报 过 警 ， 则 会 返回 9。 前 一 设置 用 来 将 时 钟 恢复 到 调用 alarm 之 前 的 状态 。 

如 果 secs 为 0， 则 关闭 报警 时 钟 。 记 住 这 样 做 是 很 重要 的 。 举 一 个 例子 ,假设 有 一 个 系 
统 调用 正在 被 堵塞 ， 比 如 read， 只 需要 阻塞 它 有 限 的 一 段 时 间 。 先 捕获 SIGALRM (使 用 一 
个 空 处 理 程序 )， 调 用 alarm (比如 5 秒 ) ， 然 后 发 出 read (被 阻塞 的 )。 当 报警 开始 时 ， 
SIGALRM 中 断 被 阻塞 的 系统 调用 ，read 返 回 -1 同时 将 errno 置 为 ETNTR。 但 如 果 read 不 到 
5 种 就 返回 了 ， 而 你 又 忘 了 关闭 报警 时 钟 的 话 ， 那 么 它 将 会 在 不 久 后 报警 (不 ， 这 太 晚 了 ， 
为 从 计算 机 的 观点 看 ，5 秒 是 非常 漫长 的 时 间 )， 可 能 会 不 可 思议 地 中 断 其 他 一 些 什么 ! 如 果 
严格 地 检查 返回 的 错误 ， 可 能 会 发 觉 有 些 事情 出 了 差错 ， 就 像 本 书 中 所 做 的 那样 。 但 是 ， 唉 ， 
不 是 所 有 人 都 这 么 做 。 

以 下 是 一 个 示例 : 

int main(void) 

{ 

struct sigaction act; 


char buf{100]; 
ssize_t rtn; 


memset (&act, 0, sizeof(act)); 
act.sa_handler = handler; 
ec_negl( sigaction(SIGALRM, &act, NULL) ) 
alarm(5); 
if ((rtn = read(STDIN_FILENO, buf, sizeof(buf) - 1)) == -1) { 
iff (errno == EINTR) 
printf ("Timed out... type faster next time!\n"); 
else 
EC_FAIL 
} 
alarm(0); 
if (rtn == 0) 
print£("Got EOF\n"); 
else if (rtn > 0) ( 
buf [rtn] = '\0'; 
printf ("Got ts", buf); 
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} 
exit (EXIT_SUCCESS) ; 


EC_CLEANUP_BGN 
exit (EXIT_FAILURE) ; 

EC_CLEANUP_END 

) 

static void handler(int signum) 

{ 

ii 

在 下 面 的 样 例 交 互 中 ， 在 初次 运行 alarm_test 后 ， 我 没有 输入 任何 东西 ; 在 其 第 二 次 
运行 后 ， 我 输入 了 “faster”: 


$ alarm test 

Timed out... type faster next time! 
$ alarm_test 

faster 

Got faster 

$ 


在 简单 的 情况 下 ， 使 用 alarm 中 断 阻塞 的 系统 调用 是 不 错 的 ， 就 像 上 文 展示 的 那样 。 但 
在 更 复杂 的 状况 下 ， 可 能 要 在 select 或 po11 中 阻塞 ， 而 不 是 直接 在 read 中 阻塞 。 如 要 超时 ， 
应 使 用 pselect (如 果 可 用 的 话 ) 代替 设 定 报警 时 钟 。 

alarm 的 一 个 局 限 性 是 每 个 进程 只 能 有 一 个 这 样 的 报警 时 钟 。 在 9.7.4 节 和 9.7.6 节 中 描述 
的 timer 系 统 调用 拥有 更 高 的 灵活 性 。 


9.7.2 sleep 系统 调用 
在 本 书 中 ，sleep 无 处 不 在 ， 我 们 对 它 已 经 很 熟悉 了 。 它 可 以 在 特定 的 秒 数 内 阻塞 一 个 
线程 : 


sleep 一 一 挂 起 执行 儿 秒 钟 或 等 待 信号 


#include <unistd.h> 


unsigned sleep( 
; unsigned secs /* seconds to sleep */ 
/* Returns unslept amount */ 





在 SUS 中 ， 对 允许 SIGALRM 与 sleep 交 互 的 规则 着 墨 很 多 ， 明 确 说 明 可 以 使 用 alarm 和 
pause, 或 更 好 地 ， 使 用 alarm 和 sigsuspend 来 把 sleep 实 现成 函数 。 以 下 是 实现 sleep 
的 一 种 简单 方法 : 


unsigned aup_sleep(unsigned secs) 
{ 
struct sigaction act; 
unsigned unslept; 
memset (&act, 0, sizeof(act)); 
act.sa_handler = slp_handler; 
ec_negl( sigaction(SIGALRM, &act, NULL) ) 
alarm(secs) ; 
pause(); 
unslept = alarm(0); 
return unslept; 
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EC_CLEANUP_BGN 
EC_FLUSH ("aup_sleep") 
return 0; 

EC_CLEANUP_END 

} 

static void slp_handler(int signum) 

{ 

) 


虽然 这 个 版 本 可 以 运行 ， 但 还 存在 一 些 问题 : 
*。 如 果 SIGALRM 没 有 被 阻塞 ， 那 么 若 它 在 调用 sigaction 之 前 到 达 可 能 会 终止 进程 。 
* 如 果 它 们 都 被 阻塞 ， 那 么 函数 可 能 就 无 法 工作 了 。 
* 如 果 在 调用 alarm 和 pause 之 间 报 警 开始 ， 那 么 等 待 将 永远 继续 下 去 。 
* 没 有 恢复 SIGALRM 的 原 有 动作 。 
。alarm 和 sleep 是 假设 兼容 的 。 
最 后 一 点 意味 着 在 一 个 如 下 的 序列 中 
alarm(10); 
sleep (20); 
报警 开始 时 ， 应 当中 断 休眠 ， 并 运行 SITGALRM 的 处 理 程序 。 在 如 下 的 序列 中 


alarm(20); 
sleep(10); 


报警 时 间 应 设 为 在 sleep 返 回 后 的 10 秒 之 后 。 
处 理 alarm 和 sleep 的 交互 ， 阻 止 某 个 错误 的 SIGALRM 终 止 进 程 ， 阻 止 无 穷尽 的 等 待 以 


及 恢复 原先 的 动作 和 屏蔽 ， 这 些 都 要 求 编写 大 量 的 技巧 性 代码 来 处 理 以 下 三 种 可 能 的 情况 : 
。 当 sleep 被 调用 时 ， 没 有 设置 alarm。 
。alarm 的 剩余 时 间 小 于 等 于 所 要 求 的 sleep 时 间 。 
。alarm 的 剩余 时 间 所 要 求 的 sl1eep 时 间 要 长 。 
下 面 的 这 个 版 本 就 解决 了 上 述 问题 © 


unsigned aup_sleep(unsigned secs) 
{ 
sigset_t set, oset; 
struct sigaction act, oact; 
unsigned prev_alarm, slept, unslept, effective_secs; 


ec_negl( sigemptyset (&set) ) 
ec_negl( sigaddset (&set, SIGALRM) ) 
ec_negl( sigprocmask(SIG_BLOCK, &set, &oset) ) 
prev_alarm = alarm(0); 
if (prev_alarm != 0 && prev_alarm <= secs) 
effective_secs = prev_alarm; 
else { 
memset (act, 0, sizeof(act)); 
act.sa_handler = slp_handler; 
ec_negl( sigaction(SIGALRM, &act, &oact) ) 
effective_secs = secs; 


} 


O 在 此 要 感谢 Geoff Clare， 他 在 我 最 初 尝试 的 版 本 中 找 出 了 bug， 从 而 有 了 现在 这 个 版 本 。 
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alarm(effective_secs) ; 
set = oset; 
ec_negl( sigdelset(&set, SIGALRM) ) + 
if (sigsuspend(&set) == -1 && errno != EINTR) 
EC_FAIL 
unslept = alarm(0); 
slept = effective_secs - unslept; 
ec_negl( sigaction(SIGALRM, &oact, NULL) ) 
if (prev_alarm > slept) 
alarm(prev_alarm - slept); 
ec_negl( sigprocmask(SIG_SETMASK, &oset, NULL) ) 
return unslept; 


EC_CLEANUP_BGN 
EC_FLUSH(*"aup_sleep*) 
return 0; 

EC_CLEANUP_END 

} 


static void slp_handler(int signum) 

) 

以 下 是 程序 执行 的 步骤 : 

1) 我 们 阻塞 了 SIGALRM， 因 此 操作 时 无 需 担心 会 有 信号 被 传递 。 将 原先 的 信号 屏蔽 存储 
在 oset 中 。 

2) 如 果 设 置 了 报警 时 钟 ， 则 将 其 关闭 ， 并 保存 剩余 时 间 。 

3) 计算 了 休眠 时 间 的 长 短 (effective_secs)， 如 果 剩余 的 报警 时 间 少 ， 则 将 要 求 的 
数量 减少 ， 并 将 报警 时 钟 设置 到 那个 时 间 。 

4) 如 果 事 先 没有 设置 报警 ， 或 休眠 时 间 比 剩余 的 报警 时 间 要 少 ， 则 安装 一 个 空 处 理 程序 
并 将 原 有 的 动作 保存 在 oact 里 。 

5) 调用 sigsuspend 代 在 pause， 以 便 可 以 自动 取消 对 SITGALRM 的 阻塞 。 对 屏蔽 中 的 其 
他 位 ， 保 持 其 进入 aup_sleep 时 的 原 有 状态 。 

6) 如 果 sigsuspend 返 回 ， 那 么 可 能 是 因为 报警 开始 了 ， 或 者 是 因为 有 某 个 其 他 信号 中 
断 了 它 。 我 们 不 必 特别 留意 是 哪个 原因 。 但 是 ， 我 们 确实 需要 报警 时 钟 剩余 的 时 间 数 量 ， 尽 
管 在 关闭 它 的 时 候 就 可 以 获得 该 值 。 

T 计算 实际 休眠 时 间 。 

8) 复位 SIGALRM 的 原 有 动作 。 

9) 如 果 休 眠 时 间 比 进入 时 剩余 的 报警 时 间 要 少 ， 那 么 按 新 的 剩余 时 间 来 重新 设置 报警 时 
钟 (一 些 时 间 已 经 休眠 过 去 了 )。 

10) 复位 信号 屏蔽 。 

11) 返回 未 休眠 的 时 间 。 

如 果 你 能 理解 这 个 函数 ， 那 么 你 就 已 经 掌握 了 本 章 中 90% 的 内 容 ， 可 以 给 自己 的 学 习 成 
绩 打 一 个 A。 如 果 你 发 现 了 书 中 的 错误 并 将 它 发 送 到 aup@basepath.com， 那 么 就 可 以 给 自己 
一 个 A+ 了 。 


9.7.3 更 高 精度 的 休眠 
sleep 会 休眠 数秒 ， 但 对 许多 用 途 来 说 ， 这 个 时 间 太 长 了 。 另 外 还 有 两 种 调用 能 以 更 精 
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确 的 时 间 间 隔 进 行 休眠 : 
usleep 一 一 挂 起 执行 几 微 秒 或 等 待 信号 


#include <unistd.h> 


int usleep( 
useconds_t usecs /* microseconds to sleep */ 
1 


/* Returns 0 on success or -1 on error (sets errno) */ 





除了 用 它 休 眠 的 时 间 达 到 或 超出 1 秒 时 会 出 现 错误 以 外 ，usleep 和 sleep 几 乎 完全 一 样 。 
也 就 是 说 ，usecs 必 须 小 于 100 万 。 如 果 知 道 已 经 使 用 了 定时 器 选项 (_POSIX_TIMERS), 
则 可 以 使 用 更 加 精确 而 且 没 有 上 述 限制 的 nanosleep: 


nanosleep 一 一 挂 起 执行 几 纳 秒 或 等 待 信号 
#include <time.h> 
int nanosleep( 


const struct timespec *nsecs, /* nanoseconds to sleep */ 
struct timespec *remain /* remaining time or NULL */ 





) 
/* Returns 0 on success or -1 on error (sets errno) */ 


nanosleep 有 一 个 已 在 1.7.2 节 中 定义 过 的 timespec 结 构 。 回 想 可 知 ， 它 有 一 个 对 应 于 
秒 的 tv_sec 成 员 和 一 个 对 应 于 纳 秒 的 tv_nsec 成 员 。 

和 平常 一 样 ， 如 果 它 被 中 断 ， 它 将 返回 -1 同时 将 errno 置 为 EINTR， 不 过 它 还 会 将 
remain 指 向 的 内 容 设 为 剩余 的 时 间 。 如 果 它 返回 零 或 如 果 remain 是 NULL， 那 么 它 不 会 通 
过 参数 返回 任何 信息 。 

在 9.7.5 节 中 我 们 还 会 介绍 一 种 叫 作 clock_nanosleep 的 休眠 函数 。 


9.7.4 基本 间隔 定时 器 系统 调用 


在 所 有 UNIX 版 本 中 都 存在 的 alarm 系 统 调用 ( 见 9.7.1 节 ) 使 用 的 是 一 个 整个 进程 范围 的 
间隔 定时 器 。 所 有 与 SUS 兼 容 的 系统 ， 以 及 一 些 其 他 系统 ， 还 具有 其 他 三 个 可 以 独立 使 用 的 
间隔 定时 器 : 

ITIMER_REAL 实际 时 间 减 1; 超时 的 时 候 产 生 一 个 SIGALRM。 

ITIMER_VIRTUAL 进程 虚拟 时 间 减 1; 超时 的 时 候 产生 一 个 SIGVTALRM。 

ITIMER_PROF 进程 虚拟 时 间 减 1 并 且 代 表 该 进程 运行 的 系统 时 间 减 1; 超时 的 时 候 产生 
一 个 SIGPROF。 它 有 意 这 样 设计 以 便 配 置 者 使 用 来 调整 程序 ， 以 指明 这 些 程序 在 何 处 花费 了 
时 间 。 

在 以 下 两 个 系统 调用 中 ，which 参 数 必须 是 以 上 列 出 的 三 个 宏 之 一 : 

getitimer 一 一 得 到 间隔 定时 器 的 值 
#include <sys/time.h> 
int getitimer( 


int which, /* timer to get */ 
struct itimerval *val /* returned value */ 





ve 
/* Returns 0 on success or -1 on error (sets errno) */ 
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setitimer 一 一 设置 间隔 定时 器 的 值 
#include <sys/time.h> 


int setitimer( 
int which, /* timer to set */ 
const struct itimerval *val, /* value to set */ 
struct itimerval ‘oval /* returned old value */ 

ve 

/* Returns 0 on success or -1 on error (sets errno) */ 


struct itimerval 一 一 getitimer 和 setitimer 的 结构 


struct itimerval { 
struct timeval it_interval; /* reset value */ 
struct timeval it_value; /* current value */ 


ve 





在 itimerval 结 构 中 ，it_interval 是 当 定时 器 超时 后 应 重 设 成 的 那个 时 间 ， 
it_value 是 当前 时 间 间 隔 的 值 。 也 就 是 说 ， 和 只 能 报警 一 次 的 alarm 不 同 ， 这 些 定时 器 可 
以 自动 地 重新 设置 自己 何 时 报警 。 如 果 在 it_value 成 员 置 为 零 时 调用 settimer， 会 立即 
停止 定时 器 。 如 果 在 it_interval 成 员 置 为 零 时 调用 settimer， 将 会 在 当前 间隔 超时 后 停 
止 定时 器 。1.7.1 节 中 定义 的 timeval 结 构 有 两 个 成 员 : 对 应 于 秒 的 tv_sec 成 员 和 对 应 于 微 
秒 的 tv_usec 成 员 。 

如 果 settimer 的 oval 参 数 是 非 NULL 的 ， 那 么 它 将 获取 原来 的 值 。 下 面 是 一 些 例子 : 


/* 3.5 sec. timer, one time only */ 
itv.it_interval.tv_sec = 0; 
itv.it_interval.tv_usec = 0; 
itv.it_value.tv_sec = 3; 

itv. it_value.tv_usec = 500000; 

ec_negl( setitimer(ITIMER_REAL, &itv, NULL) ) 


/* 3.5 sec. timer, then repeating 2.25 sec. timers */ 
itv.it_interval.tv_sec = 2; 

itv. it_interval.tv_usec = 250000; 

itv.it_value.tv_sec = 3; 

itv. it_value.tv_usec = 500000; 

ec_negl( setitimer(ITIMER_REAL, &itv, NULL) ) 


/* stop timer immediately; interval doesn't matter */ 
itv.it_value.tv_sec = 0; 

itv.it_value.tv_usec = 0; 

ec_negl( setitimer(ITIMER_REAL, &itv, NULL) ) 


例子 中 ， 定 时 器 将 在 3.5 秒 时 执行 ， 然 后 在 5.7 秒 时 再 次 执行 ， 再 然后 是 在 8 秒 时 执行 依次 类 
推 ， 每 隔 2.25 秒 执行 一 次 直到 被 停止 。 
下 面 的 例子 每 隔 2 秒 真实 (“挂钟 ") 时 间 显 示 一 个 X。 注 意 一 旦 设置 了 定时 器 ， 程 序 的 其 
他 部 分 就 可 以 自由 地 进行 自己 的 工作 ， 在 本 例 中 只 是 从 终端 读 取 并 回 显 读 和 人 的 内 容 : 
void timer_tryl (void) 
’ struct sigaction act; 
struct itimerval itv; 


char buf (100); 
ssize_t nread; 


memset (&act, 0, sizeof(act)); 
act.sa_handler = handler; 
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ec_negl( sigaction(SIGALRM, &act, NULL) ) 
memset (&itv, 0, sizeof (itv)); 
itv.it_interval.tv_sec = 2; 
itv.it_value.tv_sec = 2; 
ec_negl( setitimer(ITIMER_REAL, &itv, NULL) ) 
while (true) { 
switch( nread = read(STDIN_FILENO, buf, sizeof(buf) - 1) ) { 


case -1: 
EC_FAIL 
case 0: 
printf (*EOF\n"); 
break; 
default: 
if (nread > 0) 
buf [nread] = '\0'; 
ec_negl( write(STDOUT_FILENO, buf, strlen(buf)) ) 
continue; 
) 
break; 
} 
return; 


EC_CLEANUP_BGN 
EC_FLUSH(*timer_try1") 

EC_CLEANUP_END 

} 


void handler (int signum) 
{ 

write(STDOUT_FILENO, *\nX\n", 3); 
) 


其 输出 如 下 : 


x 
ERROR: 0: tml (/aup/c9/tmr.c:26) 0 
*** EINTR (4: "Interrupted system call") *** 


发 生 的 情况 是 : 2 秒 过 后 ， 第 一 个 X 可 以 正常 显示 ， 但 是 SIGALRM 信 号 中 断 了 已 经 被 阻塞 
的 read。 解 决 办 法 是 设置 SA_RESTART 标 志 ， 这 样 系统 调用 就 不 会 被 中 断 了 : 


memset (&act, 0, sizeof(act)); 
act.sa_handler = handler; 

act.sa_flags = SA_RESTART; 

ec_negl( sigaction(SIGALRM, &act, NULL) ) 


现在 输出 如 下 ， 可 以 看 到 输入 了 一 个 “hello” 然 后 回 显 了 出 来 ， 同 时 每 隔 2 秒 显示 一 个 X: 





还 有 一 个 被 称 为 ualarm 的 间隔 定时 器 系统 调用 ， 但 现在 已 经 不 使 用 了 。 
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9.7.5 实时 时 钟 


所 有 的 UNIX 系 统 都 有 一 个 基本 时 钟 ， 可 以 使 用 time 和 gettimeofday 系 统 调用 (W 
1.7.1 节 ) 来 读 取 它 的 值 。 但 提供 nanosleep ( 见 9.7.3 节 ) 的 那个 定时 器 选项 
(_POSIX_TIMERS) 还 包括 了 一 个 或 更 多 的 附加 时 钟 ， 其 数目 取决 于 软件 和 硬件 所 支持 的 数 
量 。 要 访问 它们 中 的 一 个 ， 可 以 通过 其 时 钟 ID 来 引用 它 。 

所 有 带 定时 器 选项 的 系统 都 支持 一 个 ID 一 -CLOCK_RERALTIME ， 它 保存 了 当天 的 时 间 记 
录 。 是 否 还 有 其 他 的 时 钟 ， 它 们 的 宏 是 什么 ， 以 及 它们 是 单个 系统 范围 的 还 是 单个 进程 范围 
的 ， 这 些 都 和 具体 实现 相关 。 例 如 ，Solaris 还 支持 一 个 单个 系统 范围 的 CLOCK_HIGHRES 时 
钟 ， 它 从 过 去 某 个 时 间 点 开始 计数 。 读 取 它 并 不 会 告诉 你 实时 时 间 ， 因 为 你 不 知道 它 是 怎样 
设置 的 ， 但 它 可 以 用 于 比较 两 个 不 同 的 时 间 。 

调用 clock_gettime 可 以 在 返回 的 timespec 结 构 ( 见 1.7.2 节 和 9.7.3 节 ) 中 获得 时 间 
的 纳 秒 形式 : 


clock_gettime 一 一 从 时 钟 中 获得 时 间 


#include <time.h> 


int clock_gettime( 


clockid_t clock_id, /* clock ID (CLOCK_REALTIME, etc.) */ 
struct timespec *tp /* time */ 


) 7 
/* Returns 0 on success or -l on error (sets errno) */ 





使 用 clock_getres 可 以 获得 一 个 纳 秒 精度 的 时 钟 : 
clock_getres 一 一 得 到 时 钟 精 度 


#include <time.h> 
int clock_getres( 
clockid_t clock_id, /* clock ID */ 
struct timespec *res /* resolution */ 


) 
/* Returns 0 on success or -1 on error (sets errno) */ 





同时 ， 如 果 拥 有 适当 的 特权 (对 CLOCK_RERALTIME 来 说 ， 需 要 超级 用 户 特 权 )， 还 可 以 
设置 一 个 时 钟 : 


clock_settime 一 一 设置 时 钟 
#include <time.h> 
int clock_settime( 


clockid_t clock_id, /* clock ID */ 
const struct timespec *tp /* time */ 


) 
/* Returns 0 on success or -1 on error (sets errno) */ 





下 面 是 一 个 函数 ， 它 从 某 个 时 钟 获取 时 间 和 精度 ， 然 后 与 使 用 ime 系 统 调用 〈 见 1.7.1 节 ) 
得 到 的 秒 形式 的 时 间 一 起 显示 出 来 : 
void clocks (void) 
{ 
struct timespec ts; 
time_t tm; 


ec_negl( time(&tm) ) 
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printf ("time() Time: tld secs.\n", (long)tm); 

printf ("CLOCK_REALTIME: \n") ; 

ec_negl( clock_gettime(CLOCK_REALTIME, &ts) ) 

printf ("Time: %1d.%091d secs.\n", (long)ts.tv_sec, (long)ts.tv_nsec); 
ec_negl( clock_getres(CLOCK_REALTIME, &ts) ) 

printf ("Res.: %1d.%091d secs.\n", (long)ts.tv_sec, (long) ts.tv_nsec) ; 
return; 


EC_CLEANUP_BGN 
EC_FLUSH ("clocks") 

EC_CLEANUP_END 

} 


在 FreeBSD 系 统 上 运行 得 到 的 输出 如 下 : 
time() Time: 1051646878 secs. 
CLOCK_REALTIME: 

Time: 1051646878.568628061 secs. 
Res.: 0.000000838 secs. 


这 表明 它 的 精度 刚好 是 微 秒 级 的 。 换 用 不 同 的 硬件 ， 在 Solaris 系 统 的 输出 如 下 : 


time() Time: 1051646409 secs. 
(CLOCK_REALTIME: 

Time: 1051646409.686869683 secs. 
Res.: 0.010000000 secs. 


这 里 的 精度 仅仅 是 百 分 之 一 秒 级 的 。 把 时 间 表 示 为 小 数 点 右 思 有 9 位 数字 的 形式 是 一 种 误导 一 一 
将 显示 形式 限制 为 其 精度 能 达到 的 形式 才 是 一 种 更 好 的 做 法 。 然 而 ， 这 些 时 钟 并 不 是 用 来 显示 
时 间 的 ， 而 是 用 来 计时 的 。 

以 下 是 用 于 特定 时 钟 的 另 一 个 hanosleep ( 见 9.7.3 节 ) 版 本 : 


clock_nanosleep 一 一 挂 起 几 纳 秒 ， 或 等 待 某 个 信号 


#include <time.h> 











int clock_nanosleep( 





clockid_t clock_id, /* clock ID */ 
int flags, /* TIMER_ABSTIME or zero */ 
const struct timespec *nsecs, /* nanoseconds to sleep */ 

struct timespec *remain /* remaining time or NULL */ 






Ji 
/* Returns 0 on success or error number on error */ 





第 一 个 参数 是 时 钟 ID; 最 后 两 个 参数 和 nanosleep 的 相同 。 如 果 flag 为 零 ， 将 会 按 指 
定数 量 的 纳 秒 时 间 间 隔 进行 休眠 ， 就 像 使 用 nanosleep 一 样 。 但 如 果 上 1ag 为 
TIMER_RABSTIME， 则 在 nsec 指 定 的 绝对 时 间 来 临 之 前 会 一 直 休眠 。 最 后 一 个 参数 是 用 来 返 
回 剩余 时 间 的 ， 它 仅 用 于 相对 休眠 ; 也 就 是 说 ， 在 fl1ag 为 零 的 时 候 。 

最 后 ， 可 以 通过 进程 CPU 时 间 时 钟 选 项 (_POSIX_CPUTIME) 获得 某 个 进程 CPU 时 间 时 
钟 的 时 钟 ID: 

clock_getcpuclockid 一 一 得 到 进程 CPU 时 钟 
#include <time.h> 
int clock_getcpuclockid( 


pid_t pid, /* process ID */ 
clockid_t *clock_id /* returned clock ID */ 


ve 
/* Returns 0 on success or error number on error */ 
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9.7.6 高 级 间隔 定时 器 系统 调用 


就 像 实时 时 钟 胜 过 基本 时 钟 那样 ， 高 级 间隔 定时 器 也 胜 过 在 9.7.4 节 中 讨论 过 的 间隔 定时 
器 。 它 们 并 非 仅仅 是 几 个 整个 系统 范围 的 定时 器 ， 调 用 它们 可 以 为 每 个 进程 设置 几 个 都 基于 
同一 时 钟 的 间隔 定时 器 ; 回想 上 一 节 可 知 ， 唯 一 能 保证 的 时 钟 只 有 CLOCK_RERALTIME。 

开始 先 创建 一 个 定时 器 : 


timer_create 一 一 建立 每 个 进程 定时 器 


#include <signal.h> 
#include <time.h> 


int timer_create( 
clockid_t clockid, /* clock ID */ 
struct sigevent *sig, 7* NULL or signal to generate */ 
timer_t *timer_id /* returned timer ID */ 


) 
/* Returns 0 on success or -1 on error (sets errno) */ 





如 果 成 功 了 ，timer_create 将 通过 timer_id 参 数 返回 一 个 新 的 定时 器 ID。 如 果 sig 是 
非 NULL 的 ， 则 在 定时 器 超时 后 ，sig 会 产生 的 一 个 信号 、 一 个 值 并 指定 信号 的 传递 方式 ， 就 像 
在 9.5.6 节 中 解释 的 那样 。 如 果 sig 是 NULL， 则 会 产生 一 个 SIGALRM， 同 时 把 值 设 为 定时 器 ID。 

使 用 timer_delete 来 删除 一 个 定时 器 ; 


timer_delete 一 一 删除 每 个 进程 定时 器 
#include <time.h> 


int timer_delete( 
timer_t timer_id /* timer ID */ 


) 
/* Returns 0 on success or -1 on error (sets errno) */ 





下 面 介 绍 的 两 个 与 getitimer 及 setitimer 相 似 的 调用 ， 只 是 它们 存储 在 
itimerspec 结 构 中 的 精度 是 纳 秒 级 而 不 是 毫秒 级 的 : 


timer_gettime 一 一 得 到 每 个 进程 定时 器 的 值 
#include <time.h> 
int timer_gettime( 


timer_t timer_id, /* timer ID */ 
struct itimerspec ‘val /* returned value */ 





) 
/* Returns 0 on success or -1 on error (sets errno) */ 






timer_settime 一 一 设置 每 个 进程 定时 器 的 值 


#include <time.h> 








int timer_settime( 


timer_t timer_id, /* timer ID */ 
int flags, /* flags */ 
const struct itimerspec *val, /* value to set */ 


struct itimerspec *oval /* returned old value or NULL */ 


de 
/* Returns 0 on success or -1 on error (sets errno) */ 
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struct itimerspec 一 一 定时 器 函数 的 结构 


struct itimerspec { 
struct timespec it_interval; /* reset value */ 


struct timespec it value; /* current value */ 


ye 





如 果 timer_settime 的 flag 参 数 为 零 ， 则 函数 的 行为 与 setitimer 就 十 分 相似 了 。 
但 如 果 设 置 了 TIMER_ABSTIME 标 志 ， 对 it_value 时 间 的 解释 将 类 似 于 clock_ 
nanosleep 中 对 nsecs 的 解释 : 作为 定时 器 超时 的 绝对 时 间 。( 也 就 是 说 ， 像 你 床 头 旁 的 闸 
钟 一 样 。) 在 定时 器 超时 后 ， 还 可 以 使 用 it_interval 成 员 对 其 进行 重新 设置 。 

定时 器 超时 后 只 能 有 一 个 信号 被 加 入 到 队列 中 ， 同 时 如 果 it_interval 成 员 足 够 小 ， 那 
么 在 产生 信号 到 接受 信号 的 时 间 段 内 ， 定 时 器 有 可 能 会 发 生 几 次 超时 。 在 这 种 情况 下 ， 可 以 
通过 以 下 系统 调用 获得 额外 超时 ( 超 限 运 行 ) 的 数目 : 


timer_getoverrun 一 一 得 到 每 个 进程 定时 器 消耗 的 时 间 


#include <time.h> 











int timer_getoverrun( 
timer_t timer_id /* timer ID */ 





) 
/* Returns overrun count or -1 on error (sets errno) */ 


练习 


9.1 研究 一 下 在 你 的 系统 中 ， 除 了 9.1.3 节 中 列 出 的 28 种 标准 信号 外 ， 还 实现 了 哪些 信号 。 

9.2 编写 一 个 在 调用 write 时 产生 SIGPIPE 信 号 (提示 : 使 用 管道 ) 的 程序 。 然 后 对 其 进行 修改 ， 使 
之 忽略 SIGPIPE ， 改 而 验证 write 是 否 返回 了 一 个 写 人 错误 。 这 时 errno 的 值 是 多 少 ? 代表 什么 
意思 ? 

9.3 使 用 sigwait 和 其 他 需要 的 系统 调用 来 实现 pause。 

9.4 尝试 使 用 sigaction 编 写 signal ( 见 9.4 节 )。 对 付 处 理 程序 是 需要 技巧 的 一 看 看 你 能 否 找 出 一 种 
方法 。 

9.5 使 用 sigaction 编 写 sigset ( 见 9.4 节 )。 

9.6 编写 一 个 当 信号 到 达 时 执行 全 局 跳 转 的 信号 处 理 函 数 ( 见 9.6 节 )， 并 演示 在 使 用 setjmp 或 
sigsetjmp 之 后 其 运行 可 以 正常 继续 。 为 什么 longjmp 和 siglongjmp 不 在 异步 信号 安全 函数 的 列 
表 ( 见 9.1.7 节 ) H? 

9.7 longjmp 和 siglongjmp 只 能 清理 堆栈 ; 它们 不 能 处 理由 malloc 和 realloc 动 态 分 配 的 内 存 。 请 对 
其 衍生 的 问题 进行 讨论 。 有 无 可 能 的 自动 解决 方案 ?这样 做 值得 吗 ? 请 提出 一 种 可 行 的 能 处 理 该 问 
题 的 设计 建议 ， 可 以 使 用 setjmp、sigsetjmp、longjmp、siglongjmp、malloc、realloc 以 及 
free。 

9.8 使 用 usleep 编 写 sleep， 请 遵从 usleep 休 眼 必 须 少 于 一 秒 钟 的 限制 。 也 就 是 说 ， 你 必须 找 出 一 种 方 
法 来 休 眼 更 长 时 间 ， 比 如 说 3 秒 。 

9.9 从 本 章 和 先前 章节 中 所 介绍 的 系统 调用 里 选 出 你 需要 的 系统 调用 (例如 间隔 定时 器 调用 )， 编 写 一 个 
名 为 alarmclock 的 命令 ， 以 一 个 时 间 和 一 条 消息 作为 参数 ， 然 后 在 那个 时 间 到 达 时 ， 在 标准 输出 中 
显示 那 条 消息 并 响 铃 。 该 命令 应 当 使 用 内 核 设施 来 等 待 那个 时 间 ， 而 不 用 设置 任何 东西 ， 它 应 该 在 
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时 间 到 达 时 才 运 行 。 将 它 设计 为 在 后 台 运行 ， 即 使 用 户 忘记 了 以 及 号 结尾 。 

9.10 解释 一 下 (无 需 编写 代码 ) 你 会 怎样 加 强 上 一 个 练习 中 的 alarmclock 命 令 ， 使 之 甚至 可 以 在 系统 
崩 省 的 时 候 也 能 记 住 其 设置 。 你 还 需要 找 出 如 何 使 后 台 进程 重新 启动 的 办 法 。 是 否 已 经 存在 一 个 
UNIX 命 令 ， 可 以 完成 类 似 的 工作 ? 

9.11 扩充 你 在 练习 5.14 中 编写 的 程序 ， 使 之 包括 那些 在 本 章 提 到 的 附录 A 中 的 进程 属性 。 


附录 A 进程 属性 


本 附录 中 的 表 列 出 了 由 fork 和 exec 影 响 到 的 进程 属性 ， 并 指出 了 在 本 书 中 何 处 讨论 过 。 

注意 ， 下 述 几 个 不 是 进程 属性 ， 正 如 第 7 章 所 讲 它们 独立 于 任何 进程 。 但 是 与 文件 不 同 ， 
它们 的 生存 时 间 与 活动 的 系统 一 样 ， 重 启 就 会 丢失 。 

POSIX 消 息 队 列 ( 见 7.7 节 )。 

POSIX 命 名 信号 量 ( 见 7.10 节 )。 

POSIX 共 享 内 存 段 ( 见 7.14 节 )。 

System V 消 息 队列 ID ( 见 7.5 节 )。 

System V 消 息 队列 ( 见 7.5 节 )。 

System V 信 号 量 设置 ID ( 见 7.9 节 )。 

System V 信 号 量 设置 ( 见 7.9 节 )。 

System V 共 享 内 存 段 ID ( 见 7.13 节 ) 。 

System V 共 享 内 存 段 ( 见 7.13 节 )。 










































































表 A-1 进程 属性 
m 性 fork exec 所 在 章节 

异步 JO 操 作 不 被 复制 | 没有 通知 即 取消 或 完成 39 
注册 的 atexit 函 数 复制 。” ”| 未 注册 134 
控制 终端 复制 保留 43 
目录 流 定位 共享 不 可 访问 361 
目录 流 复制 关闭 361 
当前 目录 复制 保留 3.62 
RAR 复制 保留 3.14 
过 出 状态 日 Š | 下 5.7 
文件 描述 到 共享 无 改变 22 
文件 描述 符 复制 除 FD_CLOEXEC 设 置 外 保留 22 
XAM 不 被 复制 ”| RRMA. RA + TAL 
KRONE RR CF) 复制 保留 242 
ARE 复制 默认 = 

有 效 组 ID 复制 取决 于 set-group-ID 位 5.12 
有 效用 户 ID 复制 。 | 取决 于 setuserID 位 3.12 
父 进程 ID 变化 保留 5.13 
进程 ID 新 增 保留 513 
进程 组 ID 复制 保留 | 43 
实际 组 ID 复制 保留 512 
实际 用 户 ID i 保留 5.12 
保存 的 set-group-ID 复制 | 取决 于 ser-group-ID 位 5 
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(8) 
属 性 fork exec 所 在 章节 
十 + 
保存 的 set-user-ID 复制 取决 于 set-user-ID 位 5.12 
线程 ID 复制 丢失 5.17.1 
备用 组 ID 复制 保留 1.1.8 
资源 限制 (包括 文件 大 小 ) 复制 保留 [os 
fi, BER ‘Mi 新 115 
HF, MER, Bi 复制 新 53 
内 存 ， 数 据 段 ， 环 境 复制 新 52 
内 存 ， 指 令 段 Bi 复制 新 115 
内 存 ， He 不 被 复制 | 删除 = 
Ate, 映射 《POSIX 和 System V) 复制 无 映射 7.12 
内 存 ， 栈 (线程 ) 复制 新 517 
消息 队列 描述 《POSIX) HE 无 影响 75 
消息 队列 描述 符 (POSIX) 复制 关闭 75 
管道 (FIFO) ® 复制 保留 72 
管道 (未 命名 ) 复制 保留 62 
调度 ，nice 值 复制 保留 5.15 
调度 ，SCHED_FIFO 和 SCHED_RR 策 略 四 | 复制 保留 
信号 县， 指向 命名 的 指针 (POSIX) 复制 关闭 7.10 
IAk, 内存 (POSIX) 复制 关闭 710 
信号 晤 ，semadj 值 (SystemV) [ee | 保留 +; 
会 话 成 员 资格 复制 保留 43 
信号 动作 复制 保留 ， 除 非 改变 为 默认 (SIGCHLD 例 外 ) 9.1.6 
信和 号 备用 栈 复制 丢失 ; 清除 所 有 的 SA_ONSTACK 标 志 93 
信号 屏蔽 ( 字 ) (线程 ) 复制 保留 
信号 挂 起 不 被 复制 | 保留 
BRE 复制 保留 
线程 属性 ， 优 先 级 等 复制 ER 
REME (BE) 复制 ” ”| ER 
线程 条 件 变 量 (线程 ) 复制 丢失 
线程 互 斥 〈 线 程 ) 复制 EK 
线程 读 写 锁 《线程 ) 复制 ER 
线程 旋转 锁 〈 线 程 ) 复制 丢失 
线程 (线程) | 一人 复制 |E 
专用 于 线程 的 数据 (线程 ) 复制 ER 
CPU 时 间 请 堆 保留 
时 间 ，CPU 时 钟 清 零 保留 
时 间 ， 线 程 的 CPU 时 间 时 钟 人 we Lae 
定时 器 ， 报 区 取消 或 清 零 | 保留 
重新 设置 “| 保留 
没有 复制 | mR 
eRe 保留 (大 部 分 ) 
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日 进程 退出 时 才 设 置 。 

O 浮 点 环境 指 浮 点 状态 标志 和 控制 方式 。 

图 用 mlock 和 munlock 加 镇 和 解锁 ; 内 存 范围 内 的 镇 (Range Memory Locking) 选项 部 分 。 

© FIFO 本 身 和 其 他 文件 一 样 有 持续 性 ， 但 是 如 果 没有 进程 打开 它 读 取 数据 的 话 ，FIFO 中 的 数据 就 会 消失 。 
© 用 sched_setscheduler 设 置 ; 见 进程 调度 选项 部 分 。 

@ 用 pthread_getcpuclockid 设 置 ; 见 CPU 时 间 时 钟 线程 选项 部 分 。 

ORME RG RRA. 





附录 B Ux: 一 个 对 标准 UNIX 函 数 
进行 包装 的 程序 


我 对 整 本 书 一 直 不 满意 的 是 标准 UNIX API 的 错误 处 理 不 一 致 、 令 人 混 清 的 命名 和 代码 元 
余 。 正 如 在 1.4.3 节 所 述 ，C++ 异 常 处 理 提供 了 一 种 比较 好 的 处 理 错误 的 方法 。 只 要 这 么 做 ， 
就 可 以 把 附录 D 中 所 列 的 大 部 分 函数 重新 命名 并 把 它们 组 织 成 类 。 

我 尝试 做 的 这 个 C++ 包 装 程序 叫 作 Ux。 它 的 设计 要 达到 如 下 目标 : 

1) 对 所 有 函数 都 采用 100% 一 致 的 错误 处 理 机 制 。 

2) 被 包装 的 函数 100% 地 功能 化 。 

3) 组 织 成 反映 UNIX 体 系 的 对 象 。 

4) 删除 元 余 、 过 时 和 有 缺陷 的 函数 (如 readdir、signal、mktemp)， 用 其 他 函数 粹 代 。 

5) 尽 可 能 接近 原 C 接 口 的 速度 。 

为 达到 上 述 目 标 ， 在 设计 Ux 时 遵循 了 如 下 规则 : 

1) 处 在 标准 UNIX 规 范 v3 层 次 上 , 即 没有 更 高 层次 的 语义 , 但 语义 统一 (除了 错误 处 理 外 )。 
也 就 是 说 与 1/O 流 或 Boost 线 程 9 不 同 ， 更 没有 ACES 那 么 详尽 的 软件 包 。 但 包括 标准 没有 的 附 
加 函数 (如 setblock、find_and_open_master)。 

2) 100% 地 实现 SUS 中 1108 个 接口 中 的 290 个 左右 的 接口 。 没 有 实现 的 那些 接口 是 标准 的 C 
函数 、POSIX 线 程 、 如 bsearch 这 种 一 般 的 用 户 函 数 ， 账 户 管理 ， 进 程 复制 ， 眼 踪 ， 过 时 的 
函数 和 其 他 一 些 函 数 。 

3) 所 有 抛 出 的 错误 都 没有 返回 。 被 抛 出 的 对 象 是 一 种 包含 errno 和 其 他 错误 代码 的 类 型 
(例如 来 自 getaddrinfo)。 

4) 只 有 在 “alloc” 字 出 现在 成 员 函 数 名 中 时 ， 内 存 才 被 动态 分 配 ， 但 这 样 的 实例 很 少 。 

5) 除了 调用 成 员 函 数 的 开销 以 外 ， 空 间 效率 和 时 间 效率 都 十 分 接近 于 原始 的 C SUS. 

6) 对 象 反 映 了 UNIX 和 SUS 对 象 (如 文件 、 目 录 、 目 录 流 、 进 程 ) 的 组 织 。 即 Ux 实 现 的 是 
UNIX 的 抽象 而 不 是 引入 不 同 的 抽象 。 

7) 在 定义 重 入 函数 和 非 重 入 函数 的 地 方 (如 readdir 和 readdir_r) 通常 使 用 重 入 版 
本 ， 并 且 缓冲 区 在 对 象 中 。 如 果 有 必要 ， 在 对 象 中 可 以 使 用 “alloc” 成 员 函 数 分 配 空间 (W 
第 4 条 )。 

8) 对 SUS 函 数 提供 的 数据 没有 额外 的 错误 检查 。 例 如 ， 如 果 NULL 指 针 被 传递 给 
File: :open， 那 么 它 会 被 直接 传递 给 底层 的 open。 原 因 见 第 5 条 。 

9) 自动 选择 ， 例 如 、 如 果 对 象 是 打开 的 ， 那 么 自动 选择 fchown ， 而 不 是 chown。 但 对 
于 它们 只 需 调 用 成 员 函 数 File: :chown。 

10) 在 一 些 情况 下 能 自动 检测 是 否 发 生 了 错误 。 如 ,对 于 Pathconf， 如 果 改 变 了 errno， 
那么 返回 值 -1 就 表明 发 生 了 错误 。 


日 一 个 C++ 线程 库 (www.boost.org)。 
© ADAPTIVE 通信 环境 ( www.cs.wustl.edu/~schmidt/ACE.html). 
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11) 一 些 函 数 结合 使 用 了 可 选 参数 。 例 如 ，read/pread、 write/pwrite、 
fsync/fdatasync. 

12) 除非 默认 ， 否 则 不 复制 构造 函数 和 赋值 运算 符 。 部 分 遵循 第 4 条 。 

以 下 是 Ux 类 的 层次 结构 : 





Ux: :SockAddrIn 
Ux: :SockAddrUn 





Ux: :TimeParts 

Ux: : Timer 
:IntervalTimer 
:RealtimeTimer 
::TimeSec 

Timestr 
TimeString 





详细 内 容 请 到 网 站 www.basepath.com/aup 上 查询 ， 那 里 有 完整 的 文档 和 源 文件 。 尽 管 Ux 
看 上 去 很 有 前 途 ， 但 只 把 它 用 在 了 一 些 细小 的 例子 上 ， 因 此 本 书 的 许多 读者 仍 未 对 其 进行 评 
论 。 如 你 有 什么 想法 ， 可 电邮 到 aup@basepath.com。 


附录 C Jtux: 标准 UNIX 函 数 的 
Java/Jython 接 口 


30 年 前 ，UNIX 刚 开始 ， 几 乎 所 有 的 UNIX 应 用 程序 都 是 用 C 写 的 ， 目 前 因为 主要 的 UNIX 
标准 用 的 仍然 是 C， 所 以 C 仍 是 “UNIX 语 言 "。 因 为 UNIX 内 核 是 用 C 写 的 ， 所 以 几乎 所 有 的 
UNIX 编 程 书 (如 本 书 ) 都 用 C 写 示例 。 现 在 有 许多 (如果 不 占 大 多 数 的 话 ) UNIX 程 序 已 不 用 
C 写 了 ， 而 是 用 其 他 语言 写 的 ， 如 : C++, Java, Perl, Python, Jython, ©PHPS4. 

C++ 是 一 个 特殊 案例 ， 因 为 你 能 直接 使 用 C 接 口 或 使 用 像 附录 B 中 Ux 那 样 的 小 的 C++ 类 库 。 
其 他 语言 主要 提供 了 POSIX1990 描 述 的 经 典 UNIX 系 统 调用 的 接口 ， 没 有 提供 如 
getaddrinfo 或 msgsnd 这 样 的 新 调用 。 因 此 想 学 UNIX 的 那些 严谨 的 学 生 们 被 迫 去 学 C 或 
C++， 即 使 他 们 所 学 的 其 他 课程 都 用 Java， 而 且 开发 者 们 也 不 准备 给 他 们 提供 Java 所 需要 的 系 
统 调 用 。 

为 了 解决 Java 的 这 些 问题 ， 我 写 了 Java-to-UNIX (Jtux)。Jtux 的 目标 是 提供 : 

“用 Java 或 Jython 学 习 UNIX 编 程 的 一 个 教学 工具 。 

。 对 目前 Java 包 不 支持 的 UNIX 特 性 进行 访问 。 

“* 一 致 的 错误 处 理 。 来 自 系统 调用 的 一 个 错误 ， 不 管 它 被 表示 成 什么 (返回 -1、 返 回 

NULL、 返 回 错误 代码 等 ) 都 抛 出 一 个 异常 一 -UErrorException。 

Jtux 不 能 做 到 : 

。 提 供 一 个 面向 对 象 的 UNIX API 观 点 。 

。 修 正 UNIX 系 统 调用 命名 或 参数 方面 的 不 一 致 性 ， 或 像 附 录 B 中 的 Ux 所 做 的 那样 清理 大 部 

分 的 宛 余 代码 。 实 际 上 ， 几 乎 每 一 个 Jtux 方 法 都 有 和 POSIX/SUS 调 用 相应 的 相同 命名 和 
相同 参数 ， 否 则 Jtux 就 不 能 帮助 学 生 学 习 编 写 UNIX。(Jtux 修 正 了 错误 处 理 的 不 一 致 . ) 

。 提 供 不 同 于 POSIX/SUS 系 统 中 已 提供 的 可 移植 性 。Jtux 无 法 在 没 安装 POSIX/SUS 系 统 的 

Java/Jython 环 境 上 运行 ， 例 如 Windows。 
。 在 applet 上 运行 ， 因 为 用 C API 连 接 Java 的 Java 本 地 接口 (Java Native Interface，JNI) 不 
能 工作 。 

针对 UNIX, 若 想 使 用 面向 对 象 的 方法 ( 因 其 更 符合 Java 的 精神 )， 最 好 使 用 其 他 的 Java 包 。 

例如 使 用 java .net .Socket 而 不 是 jtux .UNetwork。 但 是 在 广 意 上 ， 对 Java 或 Jython 来 


说 Jtux 都 是 最 完整 的 UNIX 包 。 
Jtux 包 括 以 下 186 个 系统 调用 : 
abort getppid poll setpgid 
accept getrlimit pread setrlimit 


日 Jython 是 一 种 Python 的 实现 ， 是 用 Java 写 的 ， 运 行 在 Java 环 境 上 ， 因 此 许多 Java 类 能 被 直接 访问 。 例 如 在 
Jython 中 你 可 以 用 AWT 或 Swing 写 你 的 用 户 接口 ， 而 不 用 Tkinter。 那 就 是 为 什么 Jtux 与 Java 和 Jython 都 兼容 
的 原因 。 更 多 关于 Jython 的 内 容 见 wwwjython.org。 
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access getrusage pselect setsid 
alarm getsid pthread_sigmask  setsockopt 
bind getsockopt putenv setuid 
chdir getuid pwrite shm_open 
chmod htonl read shm_unlink 
chown htons readdir shmat 
chroot inet_ntop readlink shmct1 
clock inet_pton readv shmdt 
close kill recv shmget 
closedir chown recvfrom sigaction 
connect link recvmsg sigaddset 
creat listen rename sigaltstack 
dup lockf rewinddir sigdelset 
dup2 lseek rmdir sigemptyset 
execvp lstat S_ISBLK sigfillset 
-exit mkdir S_ISCHR siginterrupt 
exit mkfifo S_ISDIR sigismember 
fchdir mknod S_ISFIFO sigpending 
fchmod mkstemp S_ISLNK sigprocmask 
fchown mmap S_ISREG sigqueue 
fcnt1 maclose S_ISSOCK sigsuspend 
FD_CLR mg_getattr seekdir sigtimedwait 
FD_ISSET ma notify select sigwait 
FD_SET mq_open sem_close sigwaitinfo 
FD_ZERO mq_open sem_destroy sleep 
fdatasync mq_receive sem_getvalue sockatmark 
fork mq_send sem_init socket 
freeaddrinfo mq setattr sem_open stat 
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fstat mq timedreceive sem open statvfs 
fstatvfs mq_timedsend sem_post symlink 
fsync mq_unlink sem_timedwait syne 
ftok msgctl sem trywait system 
ftruncate msgget sem_unlink telldir 
gai_strerror msgrev sem wait times 
getaddrinfo msgsnā semct1 truncate 
getewd munmap semget umask 
getegid nanosleep semop unlink 
getenv nice send unsetenv 
geteuid .ntohl sendmsg usleep 
getgid ntohs sendto utime 
gethostid open setegid wait 
gethostname open setenv waitpid 
getnameinfo opendir seteuid write 
getpgid pause ` setgid writev 
getpid pipe 


这 里 所 列 的 就 是 POSIX/SUS 用 来 处 理 如 下 内 容 的 所 有 调用 : 文件 、 文 件 系 统 、 目 录 、 套 
接 字 、 管 道 、 进 程 、System V 消 息 / 信号 量 /共享 内 存 、POSIX 消 息 /信号 量 / 共 享 内 存 、 信 号 、 
环境 等 。 完 全 地 包含 这 些 调 用 很 费力 。 例 如 ， 不 仅 有 write， 也 有 pwrite 和 writevi 不 仅 
有 send， 也 用 sendmsg 和 sendto。 此 外 ， 技 术 上 不 可 能 做 到 支持 所 列 函 数 的 每 个 参数 和 每 
个 结构 中 的 每 个 域 变量 。 对 于 终端 1JO、 伪 终端 、 内 部 定时 器 (PRT alarm) 和 实时 时 钟 函数 
已 经 做 了 ， 但 没 列 出 ， 你 可 以 把 它们 加 入 。 

Jython 是 一 个 非常 好 的 实验 UNIX 系 统 调用 的 系统 .为 了 说 明 Jython 和 Jtux 是 什么 样 的 系统 ， 
下 面 给 出 一 个 程序 ， 它 有 两 个 使 用 数据 报 通 信 ( 见 8.6 节 ) 的 进程: $ 


# Jython example showing use of AF_INET sockets with SOCK_DGRAMs. 
# System calls used: bind, close, _exit, fork, getaddrinfo, 
# recvfrom, sendto, setsockopt, sleep, socket, waitpid 
import jtux.UClock as UClock 

import jtux.UConstant as UConstant 

import jtux.UErrorException as UErrorException 

import jtux.UFile as UFile 

import jtux.UNetwork as UNetwork 

import jtux.UProcess as UProcess 

import jtux.UUtil as UUtil 

import java. lang 
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import jarray 
def b_to_s(ba): # convert byte array to string 
ge er 
for b in ba 
if b == 
break 
s += chr(b) 
return s 
nodename = "localhost" 
servnamel = "5431" # unused port for peer 1 
Servname2 = "5432" # unused port for peer 2 
msgsize = 300 
hint = UNetwork.s_addrinfo() 
hint .ai_family = UConstant .AF_INET 
hint.ai_socktype = UConstant .SOCK_DGRAM 
infop = UNetwork,AddrInfoListHead() 
UNetwork.getaddrinfo(nodename, servname2, hint, infop) 
sa_peer2 = infop.ai_next.ai_addr; # both peers need this socket addr 
int_opt = UNetwork.SockOptValue_int() # Jtux's way of handling setsockopt values 
int_opt.value = 1 
pid = UProcess.fork() 
if pid == 0: # Peer 1 
msg = jarray.zeros(msgsize, 'b') # jarray is a standard Jython module 
UNetwork.getaddrinfo(nodename, servnamel, hint, infop) 
sa_peerl = infop.ai_next.ai_addr 
UClock.sleep(1); # let peer 2 startup first -- not the best approach 
fd_skt = UNetwork.socket (UConstant .AF_INET, UConstant.SOCK_DGRAM, 0) 
UNetwork.setsockopt (fd_skt, UConstant.SOL_SOCKET, UConstant .SO_REUSEADDR, 
int_opt, 0) 
UNetwork.bind(fd_skt, sa_peerl, 0) 
sa_sender = UNetwork.s_sockaddr_in() 
sa_len = UUtil.IntHolder(); # Jtux class for passing ints by reference 
maxmsgs = 4 
for i in xrange(maxmsgs + 1): 
if i == maxmsgs 
m= "Stop" 
else: 
m= "Message #* + str(i) 

















UNetwork.sendto(fd_skt, m, len(m), 0, sa_peer2, 0) 
if i == maxmsgs: 
break 
nrev = UNetwork.recvfrom(fd_skt, msg, len(msg), 0, sa_sender, sa_len) 
print "Peer 1 got \"* + b_to_s(msg) + "\" from ”+ str(sa_sender) 
UFile.close(fd_skt) 
print "Peer 1 exiting" 
UProcess._exit (UConstant .EXIT_SUCCESS) 
else: # Peer 2 
msg = jarray.zeros(msgsize, 'b') # jarray is a standard Jython module 
fd_skt = UNetwork.socket (UConstant .AP_INET, UConstant.SOCK_DGRAM, 0) 
UNetwork.setsockopt (fd_skt, UConstant.SOL_SOCKET, UConstant .SO_REUSEADDR, 
int_opt, 0) 
UNetwork.bind(fd_skt, sa_peer2, 0) 
sa_sender = UNetwork.s_sockaddr_in() 
sa_len = UUtil.IntHolder() 
while 1: 
nrev = UNetwork.recvfrom(fd_skt, msg, len(msg), @, sa_sender, sa_len) 
if b_to_s(msg{:4]) == "Stop": 
break 
print "Peer 2 got \"* + b_to_s(msg[(:nrev]) + 














from * + str(sa_sender) 
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msg{0] = ord('m') 
UNetwork.sendto(fd_skt, msg, len(msg), 0, sa_sender, 


sa_len.value) 


UFile.close(fd_skt) 
UProcess.waitpid(pid, None, 0) 
print "Peer 2 exiting" 

下 面 是 Java 示 例 : 


// Java example that recursively descends the directory tree. 


import jtux 





class TreeList ( 
static void list (String entry, int level) ( 


int dir_fd = -1; 


try í 


} 





String tabs = *"; 
for (int i = 0; i < level; i++) 
tabs += "\t"; 
long dir = -1; 
try ( 
dir = UDir.opendir (entry); 
} 
catch (UErrorException e) ( 
System.out .println(tabs + entry +" - * + e); 
return; 
} 
dir_fd = UFile.open(* 
Process. chdir (entry) ; 
UDir.s_dirent dirent = new UDir.s_dirent(); 
UFile.s_stat sbuf = new UFile.s_stat(); 





, UConstant .O_RDONLY) ; 





t= null) { 





while ((dirent = UDir.readdir(dir)) 
UFile.1stat(dirent.dname, sbuf 
if (UFile.S_ISDIR(sbuf.st_mode) && !dirent.d_name.equals(".*) && 
!dirent.d_name.equals(*..*)) { 
System.out.println(tabs + dirent.d_name + ": 
if (UFile.S_ISLNK(sbuf.st_mode)) { 
System.out.printin(tabs + *[symbolic link -- skipping]"); 











} 
else 
list (dirent.d_name, level + 1); 
} 


else 
System.out .println(tabs + dirent.d_name); 


UDir.closedir (dir) ; 
Process. fchdir(dir_fd) ; 
UFile.close(dir_fd); 
dir_fd = -1; 





catch (UErrorException e) { 


} 


try í 
if (dir_fd != -1) 
UProcess. fchdir (dir_fd) ; 
} 
catch (Exception edummy) { 
} 
System.out.println(e); 


public static void main(String args[]) { 
list("/", 0); 
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UNIX C API 和 Java 并 不 能 完全 融合 。Java 没 有 指针 这 样 的 工具 。 实 现 定义 的 常量 在 Java 
程序 中 不 可 见 ， 如 ENOSYS 或 0 _CRERAT。 有 关 如 何 克 服 这 些 困 难 和 其 他 一 些 难题 ， 以 及 如 何 
建立 和 安装 Jtux 的 详情 见 www.basepath.com/aup， 当 然 也 可 以 下 载 源 代码 。 


附录 D 函数 字母 速 查 表 及 其 分 类 表 


本 附录 分 别 按 字 母 顺 序 和 函数 所 属 分 类 列 出 了 本 书 涵盖 的 307 个 函数 ， 并 附 有 函数 解释 所 
对 应 的 章节 。 


函数 字母 速 查 表 


FD_CLR 一 一 清除 fd_set 位 (4.2.3) 
FD_ISSET 一 一 检测 fd_set 位 (4.2.3) 
FD_SET 一 一 设置 fd_set 位 (4.2.3) 
FD_ZERO 一 一 清除 整个 fd_set (4.2.3) 

-Exit 一 不 清理 就 终止 进程 (5.7) 

exit 一 一 不 清理 就 终止 进程 (5.7) 
-longjmp 一 一 不 用 恢复 信号 掩 码 就 跳 至 跳 转 点 (9.6) 
-setjmp 一 一 设置 跳 转 点 (9.6) 

abort 一 一 产生 SIGABRT (9.1.9) 

accept 一 一 在 套 接 字 上 接收 新 的 连接 并 产生 新 的 套 接 字 (8.1.2) 
access 一 一 确认 文件 的 访问 (3.8.1) 
aio_cancel 一 一 取消 异步 IO 请 求 (3.9.5) 

aio_error 一 一 为 异步 1O 操 作 检 索 错误 状态 (3.9.4) 
aio_fsync 一 一 为 某 个 文件 初始 化 缓存 刷新 (3.9.6) 
aio_read 一 一 从 文件 中 异步 读 (3.9.3) 

aio_return 一 一 检索 异步 1O 操 作 的 返回 状态 (3.9.4) 
aio_suspend 一 一 等 待 异 步 JO 操 作 请 求 (3.9.7) 
aio_write 一 一 异步 写 人 文件 (3.9.3) 

alarm 一 一 调度 一 个 alarm 信 号 (9.7.1) 

asctime 一 一 把 分 散 时 间 转 换 成 本 地 时 间 字 符 串 (1.7.1) 
atexit 一 一 当 进程 退出 时 注册 已 调用 的 函数 (1.3.4) 
bind-- 一 把 名 字 与 套 接 字 绑 定 (8.1.2) 
cfgetispeed 一 一 从 termios 结 构 得 到 输入 速率 (4.5.3) 
cfgetospeed 一 一 从 termios 结 构 得 到 输出 速率 (4.5.3) 
cfsetispeed 一 一 在 termios 结 构 中 设置 输入 速率 (4.5.3) 
cfsetospeed 一 一 在 termios 结 构 中 设置 输出 速率 (4.5.3) 
chdir 一 一 根据 路 径 改变 当前 目录 (3.6.2) 

chmod 一 一 根据 路 径 改 变 文件 模式 (3.7.1) 

chown 一 一 根据 路 径 改变 文件 的 所 有 者 和 文件 的 组 (3.7.2) 








470 


HRD 





chroot 一 一 改变 根 目录 (5.14) 
clock 一 一 得 到 执行 时 间 (1.7.2) 
clock_getcpuclockid 一 一 得 到 进程 CPU 时 钟 (9.7.5) 
clock_getres 一 得 到 时 钟 精度 (9.7.5) 
clock_gettime 一 一 从 时 钟 中 获得 时 间 (9.7.5) 
clock_nanosleep 一 一 挂 起 几 纳 秒 ， 或 等 待 某 个 信号 (9.7.5) 
clock_settime 一 一 设置 时 钟 (9.7.5) 

close 一 一 关闭 文件 描述 符 (2.11) 

closedir 一 一 关闭 目录 (3.6.1) 
confstr 一 一 得 到 配置 字符 串 (1.5.7) 
connect 一 一 连接 套 接 字 (8.1.2) 

creat 一 一 创建 或 清空 文件 以 便 写 人 (2.4.2) 

ctermid 一 一 为 控制 终端 得 到 路 径 名 (4.7) 

ctime 一 一 把 time_t 转 换 成 本 地 时 间 字 符 串 (1.7.1) 
difftime 一 一 计算 两 个 time_t 值 的 差 (1.7.1) 

dup 一 一 复制 文件 描述 符 (6.3) 

dup2 一 一 复制 文件 描述 符 (6.3) 
endhostent 一 一 结束 主机 数据 库 扫 描 (8.8.1) 
endnetent 一 一 结束 网 络 数据 库 扫 描 (8.8.2) 
endprotoent 一 一 结束 协议 数据 库 扫 描 (8.8.3) 
endservent 一 一 结束 服务 数据 库 扫 描 (8.8.4) 

execl 一 一 执行 带 参 数列 表 的 文件 (5.3) 

execle 一 一 执行 带 参 数列 表 和 环境 变量 的 文件 (5.3) 
execlp 一 一 执行 带 参数 列表 和 路 径 搜索 的 文件 (5.3) 
execv 一 一 执行 带 参数 数组 的 文件 (5.3) 

execve 一 一 执行 带 参 数 数组 和 环境 变量 的 文件 (5.3) 
execvp 一 一 执行 带 参数 数组 和 路 径 搜 索 的 文件 (5.3) 
exit 一 一 清理 并 终止 进程 (5.7) 

fchdir 一 根据 文件 描述 符 改变 当前 目录 (3.6.2) 
fchmod 一 一 根据 文件 描述 符 改变 文件 模式 (3.7.1) 
fchown 一 一 通过 文件 描述 符 来 改变 所 有 者 和 组 (3.7.2) 
fcnt| 一 一 控制 打开 的 文件 (3.8.3) 


fdatasync 一 一 对 某 个 文件 数据 执行 强制 刷新 缓存 操作 (2.16.2) 


fork 一 一 建立 新 进程 (5.5) 

fpathconf 一 一 通过 文件 描述 符 得 到 系统 选项 或 限制 (1.5.6) 
freeaddrinfo 一 一 释放 套 接 字 地 址 信息 (8.2.6) 

fstat 一 一 通过 文件 描述 符 得 到 文件 信息 (3.5.1) 

fstatvfs 一 一 通过 文件 描述 符 得 到 文件 系统 信息 (3.2.3) 


fsync 一 一 对 某 个 文件 执行 调度 或 强制 刷新 缓存 操作 (2.16.2) 


HRFERERRADRR 471 





ftok 一 一 产生 System V IPC 关 键 字 (7.4.2) 

ftruncate 一 一 通过 文件 描述 符 截 短 或 加 长 文件 (2.17) 
gai_strerror 一 一 得 到 错误 代码 描述 (8.2.6) 
getaddrinfo 一 一 得 到 套 接 字 地 址 信息 (8.2.6) 

getcwd 一 一 得 到 当前 目录 路 径 名 (3.4.2) 

getdate 一 一 用 某 些 规则 把 字符 串 转换 成 分 散 时 间 (1.7.1) 
getegid 一 一 得 到 有 效 组 ID (5.11) 
getenv 一 一 得 到 环境 变量 值 (5.2) 
geteuid 一 一 得 到 有 效用 户 ID (5.11) 
getgid 一 一 得 到 实际 组 ID (5.11) 
getgrgid 一 一 得 到 组 文件 入 口 (3.5.2) 
gethostbyaddr 一 一 通过 地 址 查询 主机 (8.8.1) 
gethostbyname 一 一 通过 名 字 查 询 主机 (8.8.1) 
gethostent 一 一 得 到 下 一 个 主机 数据 库 人 口 (8.8.1) 
gethostid 一 一 得 到 本 地 主机 标识 符 (8.8.1) 
gethostname 一 一 得 到 主机 名 (8.2.7) 
getitimer 一 一 得 到 间隔 定时 器 的 值 (9.7.4) 
getlogin 一 一 得 到 登录 名 (3.5.2) 
getnameinfo 一 一 得 到 名 字 信 息 (8.8.1) 
getnetbyaddr 一 一 通过 网 络 号 查询 网 络 (8.8.2) 
getnetbyname 一 一 通过 名 字 查 询 网 络 (8.8.2) 
getnetent 一 一 得 到 网 络 数据 库 人 口 (8.8.2) 
getpeername 一 一 得 到 已 连接 套 接 字 的 套 接 字 地 址 (8.9.2) 
getpgid 一 一 得 到 进程 组 ID (4.3.3) 
getpid 一 一 得 到 进程 ID (5.13) 
getppid 一 一 得 到 父 进 程 ID (5.13) 
getprotobyname 一 一 通过 名 字 查 询 协 议 (8.8.3) 
getprotobynumber 一 一 通过 协议 号 查询 协议 (8.8.3) 
getprotoent 一 一 得 到 协议 数据 库 入 口 (8.8.3) 
getpwuid 一 一 得 到 口令 文件 入 口 (3.5.2) 
getrlimit 一 一 得 到 资源 限制 (5.16) 
getrusage 一 一 得 到 资源 的 使 用 (5.16) 
getservbyname 一 一 通过 名 字 查 询 服务 (8.8.4) 
getservbyport 一 一 通过 端口 查询 服务 (8.8.4) 
getservent 一 一 得 到 服务 数据 库 的 入 口 (8.8.4) 
getsid 一 一 得 到 会 话 ID (4.3.2) 
getsockname 一 一 得 到 套 接 字 地 址 (8.9.2) 
getsockopt 一 一 得 到 套 接 字 选项 (8.3) 
gettimeofday 一 一 得 到 当前 日 期 和 时 间作 为 timeval (1.7.1) 
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getuid 一 一 得 到 实际 用 户 ID (5.11) 
gmtime 一 一 把 time_t 转 换 成 UTC 的 分 散 时 间 (1.7.1) 
8&rantpt 一 一 取得 pty 从 面 的 访问 权限 (4.10.1) 

htonl 一 一 把 32 位 值 从 主机 字 节 序 转换 成 网 络 字 节 序 (8.1.4) 
htons 一 一 把 16 位 值 从 主机 字 节 序 转换 成 网 络 字 节 序 (8.1.4) 
if_freenameindex 一 一 通过 if_nameindex 释 放 分 配 的 数组 (8.8.5) 
if_indextoname 一 一 把 网 络 接口 索引 映射 成 名 字 (8.8.5) 
if_nameindex 一 一 得 到 所 有 的 网 络 接口 名 字 和 索引 (8.8.5) 
让 _nametoindex 一 一 把 网 络 接口 名 字 映 射 成 索引 (8.8.5) 
inet_addr 一 一 把 IPv4 点 串 地 址 转换 成 整数 (8.2.3) 

inet_ntoa 一 一 把 IPv4 整 数 地 址 转换 成 点 串 (8.2.3) 
inct_ntop 一 一 把 IPv4 或 I1Pv6 二 进 制 地 址 转换 成 字符 串 (8.9.5) 
inet_pton 一 一 把 IPv4 或 IPv6 字 符 串 地 址 转换 成 二 进 制 (8.9.5) 
ioctl 一 一 控制 字符 设备 (4.4) 

isatty 一 一 测试 终端 (4.7) 

kill 一 一 为 进程 产生 信号 (9.1.9) 

killpg 一 一 为 进程 组 产生 信号 (9.1.9) 

lchown 一 一 通过 路 径 改 变 符号 链接 的 所 有 者 和 组 (3.7.2) 
link 一 一 建立 一 个 硬 连接 (3.3.1) 
lio_listio 一 一 列 出 定向 的 MO (3.9.9) 

listen 一 一 标识 接收 套 接 字 并 设置 队列 限制 (8.1.2) 
localtime 一 一 把 time_t 转 换 成 本 地 分 散 时 间 (1.7.1) 
lockf 一 一 锁定 文件 段 (7.11.3) 

longjmp 一 一 跳 到 跳 转 点 (9.6) 

lseék 一 一 设置 和 得 到 文件 偏 移 量 (2.13) 

lstat 一 一 不 遵循 符号 链接 ， 通 过 路 径 得 到 文件 信息 (3.5.1) 
mkdir 一 一 建立 目录 (3.6.3) 

mkfifo 一 一 建立 FIFO (7.2.1) 

mknod 一 一 建立 文件 (3.8.2) 

mkstemp 一 一 用 唯一 的 名 字 建 立 和 打开 文件 (2.7) 

mktime 一 一 把 本 地 分 散 时 间 转 换 成 time_t (1.7.1) 
mmap 一 一 映射 内 存 页 (7.14.1) 

mount 一 一 安装 文件 系统 ( 非 标准 的 ) (3.2.4) 
mq_close 一 一 关闭 消息 队列 (7.7.1) 
mq_getattr 一 一 得 到 消息 队列 属性 (7.7.1) 
mq_notify 一 一 注册 或 注销 消息 通知 (7.7.1) 

mq_open 一 一 打开 消息 队列 (7.7.1) 
mq_receive 一 一 接收 消息 (7.7.1) 

mq_send 一 一 发 送 消息 (7.7.1) 
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mq_setattr 一 一 设置 消息 队列 属性 (7.7.1) 
mq_timedreceive 一 一 以 timeout 接 收 消息 (7.7.1) 
mq_timedsend 一 一 以 timeout 发 送 消息 (7.7.1) 
mq_unlink 一 一 删除 消息 队列 (7.7.1) 
msgctl 一 一 控制 消息 队列 (7.5.1) 

msgget 一 一 得 到 消息 队列 标识 符 (7.5.1) 
msgrev 一 一 接收 消息 (7.5.1) 

msgsnd 一 一 发 送 消 息 (7.5.1) 
munmap 一 一 取消 内 存 页 映射 (7.14.1) 

nanosleep 一 一 执行 挂 起 几 纳 种 或 等 待 信号 (9.7.3) 
nice 一 一 改变 nice 值 (5.15) 

ntohl 一 一 把 32 位 值 从 网 络 字 节 序 转换 成 主机 字 节 序 (8.1.4) 
ntohs 一 一 把 16 位 值 从 网 络 字 节 序 转换 成 主机 字 节 序 (8.1.4) 
open 一 一 打开 或 创建 文件 (2.4) 
opendir 一 一 打开 目录 (3.6.1) 
pathconf 一 一 通过 路 径 得 到 系统 选项 或 限制 (1.5.6) 
pause 一 一 等 待 信号 (9.2.1) 

pipe 一 一 建立 管道 (6.2.1) 

poli 一 一 等 1/0 淮 备 好 (4.2.4) 
posix_openpt 一 一 打开 pty (4.10.1) 

pread 一 一 在 偏 移 处 从 文件 描述 符 读 (2.14) 
pselect 一 一 等 待 1/O 准 备 好 (4.2.3) 
pthread_cancel 一 一 取消 线程 (5.17.5) 
pthread_cleanup_pop 一 一 匈 载 清除 处 理 程序 (5.17.5) 
pthread_cleanup_push 一 一 安装 清除 处 理 程序 (5.17.5) 
pthread_cond_signal 一 一 信号 条 件 (5.17.4) 
pthread_cond_wait 一 一 等 待 条 件 (5.17.4) 
pthread_create 一 一 建立 线程 (5.17.1) 
pthread_join 一 一 等 待 线程 终止 (5.17.2) 
pthread_kill 一 一 为 线程 产生 信号 (9.1.9) 
pthread_mutex_lock 一 一 锁 互 斥 (5.17.3) 
pthread_mutex_unlock 一 一 解锁 互 斥 (5.17.3) 
pthread_sigmask 一 一 改变 线程 的 信号 掩 码 (9.1.5) 
pthread_testcancel 一 一 尝试 撤消 (5.17.5) 
ptsname 一 一 得 到 pty 从 面 的 名 字 (4.10.1) 

putenv 一 一 改变 或 加 入 环境 变量 (5.2) 

pwrite 一 一 在 偏 移 处 向 文件 描述 符 写 (2.14) 

raise 一 一 为 线程 产生 信号 (9.1.9) 

read 一 一 从 文件 描述 符 中 读 和 人 〈2.10) 
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readdir 一 一 读 目录 (3.6.1) 
readdir_r 一 一 读 目 录 (3.6.1) 
readlink 一 一 读 符号 连接 (3.3.3) 
readv 一 一 非 连续 的 读 (2.15) 

recv 一 一 从 套 接 字 接收 数据 (8.9.1) 
recvfrom 一 一 从 套 接 字 接收 消息 (8.6.2) 
recvmsg 一 一 从 套 接 字 接 收 消息 (8.6.3) 
rename 一 一 重 命名 文件 (3.3.2) 
rewinddir 一 一 返 绕 目录 (3.6.1) 
rmdir 一 一 删除 目录 (3.6.3) 
seekdir 一 一 搜索 目录 (3.6.1) 
select 一 一 等 待 IJO 准 备 好 (4.2.3) 
sem_close 一 一 关闭 命名 信号 量 (7.10.1) 
sem_destroy 一 一 删除 未 命名 信号 量 (7.10.2) 
sem_getvalue 一 一 得 到 信号 量 的 值 (7.10.1) 
sem_init 一 一 初始 化 未 命名 信号 量 (7.10.2) 
sem_open 一 一 打开 命名 信号 量 (7.10.1) 
sem_post 一 一 增加 信号 量 (7.10.1) 
sem_timedwait 一 一 减少 信号 量 (7.10.1) 
sem_trywait 一 一 如 果 可 能 就 减少 信号 量 (7.10.1) 
sem_unlink 一 一 删除 命名 信号 量 (7.10.1) 
sem_wait 一 一 减少 信号 量 (7.10.1) 
semctl 一 一 控制 信号 量 集合 (7.9.1) 

semget 一 一 得 到 信号 量 集 合 标识 符 (7.9.1) 
semop 一 一 操作 信号 量 集合 (7.9.2) 

向 套 接 字 发 送 数据 (8.9.1) 
sendmsg 一 一 以 消息 结构 向 套 接 字 发 送 消息 (8.6.3) 
sendto 一 一 向 套 接 字 发 送 消息 (8.6.2) 
setegid 一 一 设置 有 效 的 组 ID (5.12) 

setenv 一 一 改变 或 加 入 环境 变量 (5.2) 
seteuid 一 一 设置 有 效用 户 ID (5.12) 





send 





setgid 一 一 设置 有 效 组 ID、 实 际 组 ID 和 已 保存 的 组 ID (5.12) 


sethostent 一 一 开始 主机 数据 库 扫 描 (8.8.1) 
setitimer 一 一 设置 间隔 定时 器 的 值 (9.7.4) 
setjmp 一 一 设置 跳 转 点 (9.6) 
setnetent 一 一 开始 网 络 数 据 库 扫 描 (8.8.2) 
setpgid 一 一 设置 或 建立 进程 组 (4.3.3) 
setprotoent 一 一 开始 协议 数据 库 扫描 (8.8.3) 
setrlimit 一 一 设置 资源 限制 (5.16) 
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setservent 一 一 开始 服务 数据 库 扫 描 (8.8.4) 

setsid 一 一 建立 会 话 和 进程 组 (4.3.2) 
setsockopt 一 一 设置 套 接 字 选项 (8.3) 

setuid 一 一 设置 有 效用 户 ID、 实 际 用 户 ID 和 已 保存 的 用 户 ID (5.12) 
shm_open 一 一 打开 共享 内 存 对 象 (7.14.1) 
shm_unlink 一 一 删除 共享 内 存 对 象 (7.14.1) 

shmat 一 一 连接 共享 内 存 段 (7.13.1) 
shmctl 一 一 控制 共享 内 存 段 (7.13.1) 

shmdt 一 一 断 开 共享 内 存 段 (7.13.1) 
shmget 一 一 得 到 共享 内 存 段 (7.13.1) 

shutdown 一 一 关闭 套 接 字 发 送 和 接收 操作 (8.9.4) 
sigaction 一 一 设置 信号 动作 (9.1.6) 
sigaddset 一 一 把 信号 加 入 信号 集 (9.1.5) 
sigaltstack 一 一 设置 或 得 到 备用 栈 上 下 文 (9.3) 
sigdelset 一 一 从 信号 集中 删除 信号 (9.1.5) 
sigemptyset 一 一 初始 化 空 信号 集 (9.1.5) 
sigfillset 一 一 初始 化 整个 信号 集 (9.1.5) 
sighold 一 一 阻塞 信号 (9.4) 

sigignore 一 一 忽略 信号 (9.4) 
siginterrupt 一 一 设置 或 清除 SA_RESTART 标 志 (9.3) 
sigismember 一 一 在 信号 集中 测试 信号 (9.1.5) 
siglongjmp 一 一 跳 到 跳 转 点 ， 如 果 保存 的 话 恢复 信号 掩 码 (9.6) 
signal 一 一 设置 信号 动作 (9.4) 

sigpause 一 一 改变 信号 掩 码 并 等 待 信号 (9.4) 
sigpending 一 一 检查 未 决 信号 (9.3) 
sigprocmask 一 一 改变 线程 的 信号 掩 码 ( 仅 单个 线程 ) (9.1.5) 
sigqueue 一 一 为 进程 产生 信号 (9.5.4) 
sigrelse 一 一 解除 信号 阻塞 (9.4) 

sigset 一 一 信号 管理 (9.4) 

sigsetjmp 一 一 设置 跳 转 点 (9.6) 
sigsuspend 一 一 改变 信号 掩 码 并 等 待 信号 (9.2.3) 
sigtimedwait 一 一 等 待 信号 (9.5.5) 
sigwait 一 一 等 待 信号 (9.2.2) 
sigwaitinfo 一 一 等 待 信号 (9.5.5) 

sleep 一 一 挂 起 执行 几 秒 钟 或 等 待 信号 (9.7.2) 
sockatmark 一 一 测试 带 外 标志 是 否 存在 (8.7) 
socket 一 一 建立 通信 终点 (8.1.2) 
socketpair 一 一 建立 套 接 字 对 (8.9.3) 

stat 一 一 通过 路 径 得 到 文件 信息 (3.5.1) 
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statvfs 一 一 通过 路 径 得 到 文件 系统 信息 (3.2.3) 
strftime 一 一 把 分 散 时 间 转 换 成 带 格式 的 字符 串 〈1.7.1) 
strptime 一 一 把 字符 串 转换 成 带 格式 的 分 散 时 间 (1.7.1) 
symlink 一 一 建立 符号 链接 (3.3.3) 

sync 一 一 调度 缓存 刷新 (2.16.2) 

sysconf 一 一 得 到 系统 选项 或 限制 值 (1.5.5) 
system 一 一 运行 命令 (5.5) 

tcdrain 一 一 耗 尽 等待) 终端 输出 (4.6) 

tcflow 一 一 挂 起 或 重启 终端 输入 流 或 输出 流 (4.6) 
tcflush 一 一 刷新 (丢弃 ) 终端 输入 、 输 出 或 者 两 者 (4.6) 
tcgetattr 一 一 得 到 终端 属性 (4.5.1) 
tcgetpgrp 一 一 得 到 前 台 进程 组 ID (4.3.4) 
tcgetsid 一 一 得 到 会 话 ID (4.3.4) 
tcsendbreak 一 一 发 送 中 断 到 终端 (4.6) 
tcsetattr 一 一 设置 终端 属性 (4.5.1) 
tcsetpgrp 一 一 设置 前 台 进 程 组 ID (4.3.4) 
telldir 一 一 得 到 目录 位 置 (3.6.1) 

time 一 一 得 到 当前 日 期 和 时 间作 为 time_t (1.7.1) 
timer_create 一 一 建立 每 个 进程 定时 器 (9.7.6) 
timer_delete 一 一 删除 每 个 进程 定时 器 (9.7.6) 
timer_getoverrun 一 一 得 到 每 个 进程 定时 器 消耗 的 时 间 (9.7.6) 
timer_gettime 一 一 得 到 每 个 进程 定时 器 的 值 (9.7.6) 
timer_settime 一 一 设置 每 个 进程 定时 器 的 值 (9.7.6) 
times 一 一 得 到 进程 和 子 进程 的 执行 时 间 (1.7.2) 
trhncate 一 一 通过 路 径 截 短 或 加 长 文件 (2.17) 
ttyname 一 一 查找 终端 的 路 径 名 (4.7) 
ttyname_r 一 一 查找 终端 的 路 径 名 (4.7) 

tzset 一 一 设置 时 区 信息 (1.7.1) 

ulimit 一 得 到 和 设置 进程 限制 (5.16) 

umask 一 一 设置 和 得 到 文件 模式 的 创建 掩 码 (2.5) 
umount 一 一 印 载 文件 系统 ( 非 标 准 的 ) (3.2.4) 
uname 一 一 得 到 关于 当前 系统 的 信息 (8.8.1) 
unlink 一 一 删除 目录 项 (2.6) 

unlockpt 一 一 解锁 pty (4.10.1) 
unsetenv 一 一 删除 环境 变量 (5.2) 

usleep 一 一 挂 起 执行 几 个 微 秒 或 等 待 信号 (9.7.3) 
utime 一 一 设置 文件 访问 时 间 和 修改 时 间 (3.7.3) 
vfork 一 一 建立 新 进程 ， 共 享 内 存 ( 过 时 的 ) (5.5) 
wait 一 一 等 待 子 进程 结束 (5.8) 





SRFRREARKDRK 477 





waitid 一 一 等 待 子 进程 改变 状态 [X/Open] (5.8) 
waitpid 一 一 等 待 子 进程 改变 状态 (5.8) 

wcsftime 一 一 把 分 散 时 间 转 换 成 带 格 式 的 宽 字符 串 (1.7.1) 
write 一 一 向 文件 描述 符 写 (2.9) 

writev 一 一 非 连续 的 写 和 人 (2.15) 


函数 分 类 检索 


confstr 一 一 得 到 配置 字符 串 (1.5.7) 

fpathconf 一 一 通过 文件 描述 符 得 到 系统 选项 和 限制 (1.5.6) 
gethostid 一 一 得 到 本 地 主机 标识 符 (8.8.1) 
gethostname 一 一 得 到 主机 名 (8.2.7) 

pathconf 一 一 通过 路 径 得 到 系统 选项 或 限制 值 (1.5.6) 
sysconf 一 一 得 到 系统 选项 或 限制 (1.5.5) 

uname 一 一 得 到 关于 当前 系统 的 信息 (8.8.1) 


ARVO 


closedir 一 一 关闭 目录 (3.6.1) 
opendir 一 一 打开 目录 (3.6.1) 
readdir 一 一 读 目录 (3.6.1) 
readdir_r 一 一 读 目 录 (3.6.1) 
rewinddir 一 一 返 绕 目 录 (3.6.1) 
seekdir 一 一 搜索 目录 (3.6.1) 
telldir 一 得 到 目录 位 置 (3.6.1) 


目录 管理 

link 一 一 建立 一 个 硬 连接 (3.3.1) 
mkdir 一 一 建立 目录 (3.6.3) 
readiink 一 一 读 符 号 链接 (3.3.3) 
rename 一 一 重 命名 文件 (3.3.2) 
rmdir 一 一 删除 目录 (3.6.3) 
symlink 一 一 建立 符号 链接 (3.3.3) 
unlink 一 一 删除 目录 项 (2.6) 


文件 属性 


access 一 一 确认 文件 的 访问 (3.8.1) 
chmod 一 一 根据 路 径 改 变 文件 模式 (3.7.1) 
chown 一 一 根据 路 径 改 变 文件 的 所 有 者 和 组 (3.7.2) 
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fchmod 一 一 根据 文件 描述 符 改变 文件 模式 (3.7.1) 

fchown 一 一 通过 文件 描述 来 改变 所 有 者 和 组 (3.7.2) 

fstat 一 一 通过 文件 描述 符 得 到 文件 信息 (3.5.1) 

lchown 一 一 根据 路 径 改 变 符号 链接 的 所 有 者 和 组 (3.7.2) 
lstat 一 不 遵循 符号 链接 ， 通 过 路 径 得 到 文件 信息 (3.5.1) 
stat 一 一 通过 路 径 得 到 文件 信息 (3.5.1) 

utime 一 一 设置 文件 访问 时 间 和 修改 时 间 (3.7.3) 


文件 MO 


close 一 一 关闭 文件 描述 符 (2.11) 

creat 一 一 建立 或 清空 文件 以 便 写 人 (2.4.2) 

dup 一 一 复制 文件 描述 符 (6.3) 

dup2 一 一 复制 文件 描述 符 (6.3) 

fcntl 一 一 控制 打开 的 文件 (3.8.3) 

fdatasync 一 一 对 某 个 文件 数据 执行 强制 刷新 缓存 操作 (2.16.2) 
fsync 一 一 对 某 个 文件 执行 调度 或 强制 刷新 缓存 操作 (2.16.2) 
ftruncate 一 一 通过 文件 描述 符 截 短 或 加 长 文件 (2.17) 
lseek 一 一 设置 和 得 到 文件 偏 移 量 (2.13) 
mkstemp 一 一 用 唯一 的 名 字 建 立 和 打开 文件 (2.7) 
open 一 一 打开 或 创建 文件 (2.4) 

pipe 一 一 建立 管道 (6.2.1) 

poll- 一 等 IO 准备 好 (4.2.4) 

pread 一 一 在 偏 移 处 从 文件 描述 符 读 (2.14) 
pselect 一 一 等 待 O 准 备 好 (4.2.3) 

pwrite 一 一 在 偏 移 处 向 文件 描述 符 写 (2.14) 

read 一 一 从 文件 描述 符 中 读 入 (2.10) 
readv 一 一 非 连 续 的 读 (2.15) 
Select 一 一 等 待 JO 准 备 好 (4.2.3) 

sync 一 一 调度 缓存 刷新 (2.16.2) 

truncate 一 一 通过 路 径 截 短 或 加 长 文件 (2.17) 

write 一 一 向 文件 描述 符 写 (2.9) 
writev 一 一 非 连续 的 写 和 人 (2.15) 








文件 /O( 异 步 ) 
aio_cancel 一 一 取消 异步 IO 请 求 (3.9.5) 
aio_error 一 一 为 异步 1/O 操 作 检 索 错 误 状态 (3.9.4) 
aio_fsync 一 一 为 某 个 文件 初始 化 缓存 刷新 (3.9.6) 
aio_read 一 一 从 文件 中 异步 读 (3.9.3) 
aio_return 一 一 检索 异步 /0 操作 的 返回 状态 (3.9.4) 
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aio_suspend 一 一 等 待 异步 JO 操 作 请 求 (3.9.7) 
aio_write 一 一 异步 写 人 文件 (3.9.3) 
lio_listio 一 一 列 出 定向 的 VO (3.9.9) 


文件 管理 


lockf 一 一 锁定 文件 段 (7.11.3) 
mkfifo 一 一 建立 FIFO (7.2.1) 
mknod 一 一 建立 文件 (3.8.2) 


文件 系统 
fstatvfs 一 一 通过 文件 描述 符 得 到 文件 系统 信息 (3.2.3) 
mount 一 一 安装 文件 系统 ( 非 标准 的 ) (3.2.4) 
statvfs 一 一 通过 路 径 得 到 文件 系统 信息 (3.2.2) 
umount~- 一 印 载 文件 系统 ( 非 标准 的 ) (3.2.4) 


文件 描述 符 集 
FD_CLR 一 一 清除 fa_set 位 (4.2.3) 
FD_ISSET 一 一 检测 fd_set 位 (4.2.3) 
FD_SET 一 一 设置 fd_set 位 (4.2.3) 
FD_ZERO 一 一 清除 整个 fd_set (4.2.3) 


IPC 一 -POSIX 消息 队列 


mq_close 一 一 关闭 消息 队列 (7.7.1) 
mq_getattr 一 一 得 到 消息 队列 属性 (7.7.1) 
mq_notify 一 注册 或 注销 消息 通知 (7.7.1) 
mq_open 一 一 打开 消息 队列 (7.7.1) 
mq_receive 一 一 接收 消息 (7.7.1) 
mq_send 一 一 发 送 消息 (7.7.1) 
mq_setattr 一 一 设置 消息 队列 属性 (7.7.1) 
mq_timedreceive 一 一 用 timeout 接 收 消息 (7.7.1) 
mq_timedsend 一 一 用 timeout 发 送 消 息 (7.7.1) 
mq_unlink 一 一 移 除 消息 队列 (7.7.1) 


IPC 一 一 POSIX 信 和 号 量 


sem_close 一 一 关闭 命名 信号 量 (7.10.1) 
sem_destroy 一 一 释放 未 命名 信号 量 (7.10.2) 
sem_getvalue 一 一 得 到 信号 量 的 值 (7.10.1) 
sem_init- 一 初始 化 未 命名 信号 量 (7.10.2) 
sem_open 一 一 打开 命名 信号 量 (7.10.1) 
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sem_post 一 一 增加 信号 量 (7.10.1) 
sem_timedwait: 减少 信和 号 量 (7.10.1) 
sem_trywait 一 一 如 果 可 能 就 减少 信号 量 (7.10.1) 
sem_unlink 一 一 删除 命名 信号 量 (7.10.1) 

减少 信号 量 (7.10.1) 


IPC 一 一 POSIX 共 享 内 存 


mmap 一 一 映射 内 存 页 (7.14.1) 
munmap 一 一 取消 内 存 页 映射 (7.14.1) 
shm_open 一 一 打开 共享 内 存 对 象 (7.14.1) 
shm_unjlink 一 一 删除 共享 内 存 对 象 (7.14.1) 


IPC— System V 消 息 队 列 


ftok 一 一 产生 System V IPC 关 键 字 (7.4.2) 
msgctl 一 一 控制 消息 队列 (7.5.1) 

msgget 一 一 得 到 消息 队列 标识 符 (7.5.1) 
msgrcv 一 一 接收 消息 (7.5.1) 
msgsnd 一 一 发 送 消 息 (7.5.1) 








sem_wait- 


IPC-——System V 信 号 量 


semcti 一 一 控制 信号 量 设置 (7.9.1) 
semget 一 -得 到 信号 量 设置 标识 符 (7.9.1) 
semop 一 一 操作 信号 量 设置 (7.9.2) 


IPC—System V 共 享 内 存 


shmat 一 一 连接 共享 内 存 段 (7.13.1) 
shmectl 一 一 控制 共享 内 存 段 (7.13.1) 
shmdt 一 一 断 开 共 享 内 存 段 (7.13.1) 
shmget 一 一 得 到 共享 的 内 存 段 (7.13.1) 


网 络 数据 库 


endhostent 一 一 结束 主机 数据 库 扫描 (8.8.1) 
endnetent 一 一 结束 网 络 数据 库 扫 描 (8.8.2) 
endprotoent 一 一 结束 协议 数据 库 扫描 (8.8.3) 
endservent 一 结束 服务 数据 库 扫描 (8.8.4) 
gethostent 一 一 得 到 下 一 个 主机 数据 库 入 口 (8.8.1) 
getnetbyaddr 一 一 通过 数字 查询 网 络 (8.8.2) 
getnetbyname 一 一 通过 名 字 查 询 网 络 (8.8.2) 
getnetent 一 一 得 到 网 络 数据 库 入 口 (8.8.2) 
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getprotobyname 一 一 通过 名 字 查 询 协 议 (8.8.3) 
getprotobynumber 一 一 通过 协议 号 查询 协议 (8.8.3) 
getprotoent 一 一 得 到 协议 数据 库 入口 (8.8.3) 
getservbyname 一 一 通过 名 字 查 询 服 务 (8.8.4) 
getservbyport 一 一 通过 端口 查询 服务 (8.8.4) 
getservent 一 一 得 到 服务 数据 库 的 入 口 (8.8.4) 

htonl 一 一 把 32 位 值 从 主机 字 节 序 转换 成 网 络 字 节 序 (8.1.4) 
htons 一 一 把 16 位 值 从 主机 字 节 序 转换 成 网 络 字 节 序 (8.1.4) 
if_freenameindex 一 一 通过 if_nameindex 释 放 分 配 的 数组 (8.8.5) 
if_indextoname 一 一 把 网 络 接口 索引 映射 成 名 字 (8.8.5) 

计 _nameindex 一 一 得 到 所 有 的 网 络 接口 名 字 和 索引 (8.8.5) 
if_nametoindex 一 一 把 网 络 接口 名 字 映射 成 索引 (8.8.5) 
ntohl 一 一 把 32 位 值 从 网 络 字 节 序 转换 成 主机 字 节 序 (8.1.4) 
ntohs 一 一 把 16 位 值 从 网 络 字 节 序 转换 成 主机 字 节 序 (8.1.4) 
sethostent 一 一 开始 主机 数据 库 扫 描 (8.8.1) 
setnetent 一 一 开始 网 络 数据 库 扫 描 (8.8.2) 
setprotoent 一 一 开始 协议 数据 库 扫 描 (8.8.3) 
setservent 一 一 开始 服务 数据 库 扫描 (8.8.4) 


进程 属性 


chdir 一 一 根据 路 径 改变 当前 目录 (3.6.2) 
chroot 一 一 改变 根 目录 (5.14) 

fchdir 一 一 根据 文件 描述 符 改变 当前 目录 (3.6.2) 
getcwd 一 一 得 到 当前 目录 路 径 名 (3.4.2) 
getrusage 一 一 得 到 资源 的 使 用 (5.16) 

nice 一 一 改变 nice 值 (5.15) 


进程 控制 流 


_longjmp 一 一 不 用 恢复 信号 掩 码 就 跳 至 中 断 点 (9.6) 
_setjmp 一 一 设置 跳 转 点 (9.6) 

longjmp 一 一 跳 到 跳 转 点 (9.6) 

pause 一 一 等 待 信号 (9.2.1) 

setjmp 一 一 设置 跳 转 点 (9.6) 

siglongjmp- 一 跳 到 跳 转 点 ， 如 果 保 存 的 话 恢复 信号 掩 码 (9.6) 
sigsetjmp 一 一 设置 跳 转 点 (9.6) 


进程 环境 


getenv 一 一 得 到 环境 变量 值 (5.2) 
putenv 一 一 改变 或 加 入 环境 变量 (5.2) 
setenv 一 一 改变 或 增加 环境 变量 (5.2) 
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unsetenv 一 一 删除 环境 变量 (5.2) 


进程 限制 


getrlimit 一 一 得 到 资源 限制 (5.16) 
setrlimit 一 一 设置 资源 限制 (5.16) 
ulimit 一 得 到 和 设置 进程 限制 (5.16) 


进程 管理 


_Exit 一 不 清理 就 终止 进程 (5.7) 

-exit 一 一 不 清理 就 终止 进程 (5.7) 

abort 一 一 产生 SIGABRT (9.1.9) 

atexit 一 一 当 进 程 退 出 时 注册 已 调用 的 函数 (1.3.4) 
execl 一 执行 带 参数 列表 的 文件 (5.3) 

execle 一 一 执行 带 参 数列 表 和 环境 变量 的 文件 (5.3) 
execlp 一 一 执行 带 参 数列 表 和 路 径 搜索 的 文件 (5.3) 
execv 一 一 执行 带 参数 数组 的 文件 (5.3) 

execve 一 一 执行 带 参数 数组 和 环境 变量 的 文件 (5.3) 
execvp 一 一 执行 带 参数 数组 和 路 径 搜索 的 文件 (5.3) 
exit 一 一 清理 并 终止 进程 (5.7) 

fork 一 一 建立 新 进程 (5.5) 

system 一 一 运行 命令 (5.5) 

vfork 一 一 建立 新 进程 ， 共 享 内 存 ( 过 时 的 ) (5.5) 
wait 一 一 等 待 子 进程 结束 (5.8) 

waitid 一 一 等 待 子 进程 改变 状态 [X/Open] (5.8) 
waitpid 一 一 等 待 子 进程 改变 状态 (5.8) 


进程 权限 
getegid 一 一 得 到 有 效 组 ID (5.11) 
geteuid 一 一 得 到 有 效用 户 ID (5.11) 
getgid 一 一 得 到 实际 组 ID (5.11) 
getuid 一 一 得 到 实际 用 户 ID (5.11) 
setegid 一 一 设置 有 效 组 ID (5.12) 
seteuid 一 一 设置 有 效用 户 ID (5.12) 
setgid 一 一 设置 有 效 组 ID、 实 际 组 ID 和 已 保存 的 组 ID (5.12) 
setuid 一 一 设置 有 效用 户 ID、 实 际 用 户 ID 和 已 保存 的 用 户 ID (5.12) 
umask 一 一 设置 和 得 到 文件 模式 的 创建 掩 码 (2.5) 


进程 资源 
getpgid 一 一 得 到 进程 组 ID (4.3.3) 
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getpid 一 一 得 到 进程 ID (5.13) 
getppid 一 一 得 到 父 进程 ID (5.13) 
getsid 一 一 得 到 会 话 ID (4.3.2) 
setpgid 一 一 设置 或 建立 进程 组 (4.3.3) 
setsid 一 一 建立 会 话 和 进程 组 (4.3.2) 


信号 


kill 一 一 为 进程 产生 信号 (9.1.9) 

killpg 一 一 为 进程 组 产生 信号 (9.1.9) 

raise 一 一 为 线程 产生 信号 (9.1.9) 
sigaction 一 一 设置 信号 动作 (9.1.6) 
sigaltstack 一 一 设置 或 得 到 备用 栈 上 下 文 (9.3) 
sighold 一 一 阻塞 信号 (9.4) 
sigignore 一 一 忽略 信号 (9.4) 
siginterrupt 一 一 设置 或 清除 SA_RESTART 标 志 (9.3) 
sigismember 一 一 在 信号 集中 测试 信号 (9.1.5) 
signal 一 一 设置 信号 动作 (9.4) 

sigpause 一 一 改变 信号 掩 码 并 等 待 信号 (9.4) 
sigpending 一 一 检查 未 决 信号 (9.3) 
Sigqueue 一 一 为 进程 产生 信号 (9.5.4) 
sigrelse 一 一 解除 信号 阻塞 (9.4) 
sigset 一 一 信号 管理 (9.4) 
sigsuspend 一 一 改变 信号 掩 码 并 等 待 信号 (9.2.3) 
sigtimedwait 一 一 等 待 信 号 (9.5.5) 
sigwait 一 等待 信号 (9.2.2) 
sigwaitinfo 一 一 等 待 信号 (9.5.5) 


信和 号 标记 
sigaddset 一 一 把 信号 加 入 信和 号 集 (9.1.5) 
sigdelset 一 一 从 信号 集中 删除 信号 (9.1.5) 
sigemptyset 一 一 初始 化 空 信号 集 (9.1.5) 


sigfillset 一 一 初始 化 整个 信号 集 (9.1.5) 
sigprocmask 一 一 改变 线程 的 信号 掩 码 〈 仅 单个 信号 ) (9.1.5) 


套 接 字 


accept 一 在 套 接 字 上 接收 新 的 连接 并 产生 新 的 套 接 字 (8.1.2) 
bind 一 一 把 名 字 与 套 接 字 乡 定 (8.1.2) 

connect 一 连接 套 接 字 (8.1.2) 
getpeername 一 一 得 到 已 连接 套 接 字 的 套 接 字 地 址 (8.9.2) 
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getsockname 一 一 得 到 套 接 字 地 址 (8.9.2) 
getsockopt 一 一 得 到 套 接 字 选项 (8.3) 

listen 一 一 标识 接收 套 接 字 并 设置 队列 限制 (8.1.2) 
recv 一 一 从 套 接 字 接 收 数据 (8.9.1) 
recvfrom 一 一 从 套 接 字 接收 消息 (8.6.2) 
recvmsg 一 一 从 套 接 字 接收 消息 (8.6.3) 

向 套 接 字 发 送 数据 (8.9.1) 

sendmsg 一 一 以 消息 结构 向 套 接 字 发 送 消 息 (8.6.3) 
sendto 一 一 向 套 接 字 发 送 消息 (8.6.2) 
setsockopt 一 一 设置 套 接 字 选 项 (8.3) 

shutdown 一 一 关闭 套 接 字 发 送 和 接收 操作 (8.9.4) 
sockatmark 一 一 测试 带 外 标志 是 否 存在 (8.7) 
socket 一 一 建立 通信 的 终点 (8.1.2) 
socketpair 一 一 建立 套 接 字 对 (8.9.3) 


套 接 字 地 址 


freeaddrinfo 一 一 释放 套 接 字 地 址 信息 (8.2.6) 
gai_strerror 一 一 得 到 错误 代码 描述 (8.2.6) 
getaddrinfo 一 一 得 到 套 接 字 地 址 信息 (8.2.6) 
gethostbyaddr 一 一 通过 地 址 查询 主机 (8.8.1) 
gethostbyname 一 一 通过 名 字 查 询 主 机 (8.8.1) 
getnameinfo 一 一 得 到 名 字 信 息 (8.8.1) 

inet_addr 一 一 把 IPv4 点 串 地 址 转换 成 整数 (8.2.3) 

inet_ntoa 一 一 把 IPv4 整 数 地 址 转换 成 点 串 (8.2.3) 

inct_ntop 一 一 把 IPv4 或 IPv6 二 进 制 地 址 转换 成 字符 串 (8.9.5) 
inet_pton 一 一 把 IPv4 或 IPv6 字 符 串 地 址 转换 成 二 进 制 (8.9.5) 


终端 
cfgetispeed 一 一 从 termios 结 构 得 到 输入 速率 (4.5.3) 
cfgetospeed 一 一 从 termios 结 构 得 到 输出 速率 (4.5.3) 
cfsetispeed 一 一 在 termios 结 构 中 设置 输入 速率 (4.5.3) 
cfsetospeed 一 一 在 termios 结 构 中 设置 输出 速率 (4.5.3) 
ctermid 一 一 为 控制 终端 得 到 路 径 名 (4.7) 
ioct 一 一 控制 字符 设备 (4.4) 
isatty 一 一 测试 终端 (4.7) 
tcdrain 一 一 耗 尽 等待) 终端 输出 (4.6) 
tcflow 一 一 挂 起 或 重启 终端 输入 流 或 输出 流 (4.6) 
tcflush 一 一 刷新 (丢弃 ) 终端 输入 、 输 出 或 者 两 者 (4.6) 
tcgetattr 一 一 得 到 终端 属性 (4.5.1) 
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tcgetpgrmp 一 一 得 到 前 台 进程 组 ID (4.3.4) 
tcgetsid 一 一 得 到 会 话 ID (4.3.4) 
tcsendbreak 一 一 发 送 中 断 到 终端 (4.6) 
tcsetattr 一 一 设置 终端 属性 (4.5.1) 
tcsetpgrp 一 一 设置 前 台 进 程 组 ID (4.3.4) 
ttyname 一 一 查找 终端 的 路 径 名 (4.7) 
ttyname_r 一 一 查找 终端 的 路 径 名 (4.7) 


终端 (Pty) 


grantpt 一 一 取得 pty 从 面 的 访问 权限 (4.10.1) 
posix_openpt-——4] Ff pty (4.10.1) 
ptsname 一 一 得 到 pty 从 面 的 名 字 (4.10.1) 
unlockpt 一 一 解锁 pty (4.10.1) 


线程 


pthread_cancel 一 一 取消 线程 (5.17.5) 
pthread_cleanup_pop 一 一 印 载 清除 句柄 (5.17.5) 
pthread_cleanup_push 一 一 安装 清除 句柄 (5.17.5) 
pthread_cond_signal 一 一 信号 条 件 (5.17.4) 
pthread_cond_wait 一 一 等 待 条 件 (5.17.4) 
pthread_create 一 一 建立 线程 (5.17.1) 
pthread_join 一 一 等 待 线程 终止 (5.17.2) 
pthread_kil 一 一 为 线程 产生 信号 (9.1.9) 
pthread_mutex_lock 一 一 锁 互 斥 (5.17.3) 
pthread_mutex_unlock 一 一 解锁 互 斥 (5.17.3) 
pthread_sigmask 一 一 改变 线程 的 信号 掩 码 (9.1.5) 
pthread_testcancel 一 一 尝试 撤消 (5.17.5) 


时 间 


asctime 一 一 把 分 散 时 间 转 换 成 本 地 时 间 字 符 串 (1.7.1) 
clock 一 一 得 到 执行 时 间 (1.7.2) 
clock_getcpuclockid 一 一 得 到 进程 CPU 时 钟 (9.7.5) 
clock_getres 一 一 等 到 时 钟 精度 (9.7.5) 
clock_gettime 一 一 从 时 钟 中 获得 时 间 (9.7.5) 
clock_nanosleep 一 一 挂 起 几 纳 秒 ， 或 等 待 某 个 信号 (9.7.5) 
clock_settime 一 一 设置 时 钟 (9.7.5) 

ctime 一 一 把 time_t 转 换 成 本 地 时 间 字 符 串 (1.7.1) 

difftime 一 一 计算 两 个 time_t 值 的 差 (1.7.1) 

getdate 一 一 用 某 些 规则 把 字符 串 转换 成 分 散 时 间 (1.7.1) 
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gettimeofday 一 一 得 到 当前 日 期 和 时 间作 为 timeval (1.7.1) 
gmtime 一 一 把 time_t 转 换 成 UTC 的 分 散 时 间 (1.7.1) 
localtime 一 一 把 time_t 转 换 成 本 地 分 散 时 间 (1.7.1) 
mktime 一 一 把 本 地 分 散 时 间 转 换 成 time_t (1.7.1) 
nanosleep 一 一 执行 挂 起 几 纳 秒 或 等 待 信号 (9.7.3) 

sleep 一 一 挂 起 执行 几 秒 钟 或 等 待 信号 (9.7.2) 

strftime 一 一 把 分 散 时 间 转 换 成 带 格式 的 字符 串 (1.7.1) 
strptime 一 一 把 字符 串 转换 成 带 格式 的 分 散 时 间 (1.7.1) 
time 一 一 得 到 当前 日 期 和 时 间 如 time_t (1.7.1) 

times 一 一 得 到 进程 和 子 进程 的 运行 时 间 (1.7.2) 

tzset 一 一 设置 时 区 信息 (1.7.1) 

usleep 一 一 挂 起 执行 几 个 微 秒 或 等 待 信号 (9.7.3) 
wcsftime 一 一 把 分 散 时 间 转 换 成 带 格式 的 宽 字符 串 〈1.7.1) 


定时 器 


alarm 一 一 调度 一 个 alarm 信 号 (9.7.1) 
getitimer 一 一 得 到 间隔 定时 器 的 值 (9.7.4) 
setitimer 一 一 设置 间隔 定时 器 的 值 (9.7.4) 
timer_create 一 一 建立 每 个 进程 定时 器 (9.7.6) 
timer_delete 一 一 删除 每 个 进程 定时 器 (9.7.6) 
timer_getoverrun 一 一 得 到 每 个 进程 定时 器 消耗 时 间 (9.7.6) 
timer_gettime 一 一 得 到 每 个 进程 定时 器 的 值 (9.7.6) 
timer_settime 一 一 设置 每 个 进程 定时 器 的 值 (9.7.6) 


用 户 信息 


getgrgid 一 一 得 到 组 文件 入 口 (3.5.2) 
getlogin 一 一 得 到 登录 名 (3.5.2) 
getpwuid 一 一 得 到 口令 文件 入 口 (3.5.2) 


参考 文献 


Abr1996] Abrahams, Paul W. and Bruce R. Larson, UNIX for the Impatient, 2"4 Ed., Addison-Wesley 
Longman, 1996. 


AUP2003] Rochkind, Marc, Advanced UNIX Programming Web Site, www.basepath.com/aup 
Bac 1986] Bach, Maurice J., The Design of the UNIX Operating System, Prentice Hall, 1986. 


[Bov2001] Bovet, Daniel P. and Marco Cesati, Understanding the Linux Kernel, O'Reilly & Associates, 
2001. 


But1997] Butenhof, David R., Programming with POSIX Threads, Addison-Wesley Longman, 1997. 


Dre2003] Drepper, Ulrich, “POSIX Option Groups,” hitp://people.redhat.com/~drepper/posix-option- 
groups.himl 


Har2002] Harbison III, Samuel P. and Guy L. Steele Jr., C: A Reference Manual, 5 Ed., Prentice Hall, 
2002. 


Keg2003] Kegel, Dan, “The C10K Problem,” www.kegel.com/c10k.html 





[Ker1984] Kernighan, Brian W. and Rob Pike, The UNIX Programming Environment, Prentice Hall 
Computer Books, 1984. 


[Mau2001] Mauro, Jim and Richard McDougall, Solaris Internals, Prentice Hall PTR, 2001. 


[McK 1996] McKusick, Marshall Kirk, Keith Bostic, Michael J. Karels, and John S. Quarterman, The Design 
and Implementation of the 4.4BSD Operating System, Addison-Wesley, 1996. 


[Nor1997] Norton, Scott J. and Mark D. DiPasquale, Thread Time: The Multithreaded Programming Guide, 
Prentice-Hall PTR, 1997. 


[RFC] IETF RFC Page, www.ietforg/rfe 


[RFC854] Postel, J. and J. Reynolds, “Telnet Protocol Specification,” www.ietf org/rfe/ 
1fe0854.txt?number=854 


[RFC1288] Zimmerman, D., “The Finger User Information Protocol,” www.ietf.org/rfc/ 
rfc1288.txt?number= 1288 


[Ste1999] Stevens, Richard P., UNIX Network Programming, Vol. 2, 2" Ed., Prentice Hall PTR, 1999. 


[Ste2003] Stevens, Richard P., Bill Fenner, and Andrew M. Rudoff, UNIX Network Programming, Vol. 1, 3 
Ed., Addison-Wesley, 2004. 


[Str2000] Stroustrup, Bjarne, The C++ Programming Language (Special 3rd Edition), Addison-Wesley, 
2000. 


[SUS2002] The Open Group, “The Single UNIX Specification, Version 3,” www:unix.org/version3 


RATM 


[Ste2003] Stevens, Richard P., Bill Fenner, and Andrew M. Rudoff, UNIX Network Programming, Vol. 1, 3"? 
Ed., Addison-Wesley, 2004. 

[Str2000] Stroustrup, Bjarne, The C++ Programming Language (Special 3rd Edition), Addison-Wesley, 
2000. 


[SUS2002] The Open Group, “The Single UNIX Specification, Version 3,” www.unix.org/version3 


其 他 推荐 读物 


Bell Labs, “The Creation of the UNIX* Operating System,” www. bell-labs.com/history/unix/. An interesting 
site sponsored by Bell Labs, where UNIX originated. 

Gallmeister, Bill O., POSLX.4: Programming for the Real World, O’Reilly & Associates, 1995. The only 
book on the POSIX realtime extensions, written by the vice-chair of the group that wrote the standard. 

Garfinkel, Simson, Daniel Weise, and Steven Strassmann, The UNIX-Haters Handbook, IDG Books 
Worldwide, 1994, UNIX-lovers hate this book, but its criticisms are right on. The book is hilarious 
and deserves to be recommended for that reason alone. Out of print, but you can read it for free at 
Attp://web. mit. edu/~simsong/www/ugh. pdf. (If the link doesn’t work, google the book title.) 

Google Groups, www.google.com/grphp. Where you’ ll find newsgroups such as comp.unix.programmer. 

Libes, Don and Sandy Ressler, Life With UNIX, Prentice Hall, 1989. UNIX history and lots of other 
interesting information, both trivial and important. Most of its technical and market information is 
dated, but there’s plenty left that isn’t. 

Nemeth, Evi, Garth Snyder, Scott Seebass, and Trent R. Hein, UNIX System Administration Handbook, 3”! 
Ed., Prentice Hall PTR, 2001. The best UNIX administration book. Covers Solaris, HP-UX, Red Hat 
Linux, and FreeBSD specifically, but most of the book applies to any UNIX system. From its title you 
might not think this book is a pleasure to read, but it is. 

Salus, Peter H., A Quarter Century of UNIX, Addison-Wesley, 1994. Exceptionally complete history of 
UNIX. 

Taylor, Christopher C., “Unix Is a Four Letter Word,” http://unix.t-a-y-I-o-r.com. Online introduction to 
UNIX and vi. 

Unix Heritage Society, www.tuhs.org. Outstanding collection of links to historical UNIX materials. 


